Gis and r 010

提供: OSGeo.JP Wiki
移動: 案内検索

表紙へ戻る

※Wiki記法の書き方については http://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8 を参照。


第10回GIS+R勉強会

参加者

  • 清野(リアル)
  • 小野原(リアル)
  • 瀬戸(リアル)
  • 東郷(リアル)

報告

清野

Shift_JISのshapeファイル(shpファイル)をUTF-8に変換する方法。

※日本の省庁などが配布しているデータは多くの場合、文字コードがShift_JISである。しかし、QGISなどでShift_JISのshpファイルを開くと日本語属性が文字化けを起こす。そのため、UTF-8に変換する必要がある。

  1. あるshpファイル(X.shpとする)にはかならず複数の同名の別形式のファイル(X.dbf, Xprj, X.qpj, X.shx)が同時に生成されている。これらは、実際のshpファイルに含まれる個別のデータや投影法に関するデータであるが、この中のX.dbfが個別のデータの格納されている。
    1. 拡張子dbfのファイルは、dBase形式のファイル。Microsoft Excel等でも開くことはできるが、ここではフリーソフトウェアのOpenOffice.orgのCalcを利用する。
  2. まずX.dbfをCalcで開き、「名前をつけて保存」からテキストCSVで保存しなおす。その保存しなおす際に文字列の文字コードを聞かれるので、この時「Unicode(UTF-8)」を選ぶ。区切り記号は何でもよい(Calcで後で読み込めれば)。
  3. 保存したcsvファイルをもう一度OpenOffice.orgCalcで開き直す。この際文字コードをUTF-8で読み込む。
    1. きちんと列が分かれてインポートされたかを確認する。
  4. 最後にこの読み込んだcsvファイルを再度「名前をつけて保存」から、今度は保存形式をdbase(.dbf)で保存しなおす。
  5. そして元のX.dbfと同じ名前にする(上書きする)。

これでQGISでshpファイルを開くときちんと日本語で読み込めるようになっている。

瀬戸

国勢調査の小地域集計をGISで表示する方法
  1. 政府統計のページ(e-stat)へアクセス http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
  2. 「地図で見る統計(統計GIS)」から「データダウンロード」を選択
  3. 「統計調査(集計)を選択」(ex.平成17年国勢調査、小地域)し、統計表を選択。次へ(男女別人口総数及び世帯総数)
  4. 「地域を選択」(複数市町村を選択可能)し、ダウンロードデータを選択。ここで、統計表(.csv)に加えて、shapeファイル形式でもダウンロード可能。

※ここでの境界データは、統計業務のために作成されたものであるため、必ずしも行政区画と一致しているわけではない。使用上の注意事項等は、http://www.e-stat.go.jp/SG1/NetHelp10/WordDocuments/_1.htm を参照のこと

用いたGISデータの説明

  • area_osaka_city

出典:ESRIの全国市区町村界データ

ESRIジャパンが無償で提供しているshapeデータであるが、サンプルデータのため精度の保証はない。  

  • pp_n860

出典:大阪警察犯罪発生マップ とCSISのアドレスマッチングサービス

を使って、住所から緯度経度をプロット

cf.Google Maps APIを使ったジオコーディングと地図化という方法もある。

http://ktgis.net/gcode/

空間単位(住所精度):町丁目のため「付近」と表記され、具体的な街区までは秘匿されている

期間:2010年2月19日から2010年3月31日までの期間

発生件数:860点

  • train_osaka_city

出典:(後で追記すること)

  • kdbw500gr

tifファイルは sda4ppでカーネル密度を求めた結果。元データはpp_n860ファイル

分析内容

カーネル密度推定:バンド幅500mとセルサイズ25m四方で算出 (cf.東京の事例研究を参考にしている→書誌情報:)

点の精度の問題

点の間の内挿をした。

相談・議論内容

  1. カーネル密度に関して
    1. 設定するセルサイズが小さすぎる?
    2. カーネル密度を算出するだけでなく、他の空間データの分布傾向と重ね合わせて比較する。
    3. 年代別、時間帯でデータを区切って分析。
  1. カーネル密度を出した後、そのラスタデータの扱い方をどうするのか?
  1. 空間スキャン統計量を使う?

Rでshpを読み込めない→QGISの編集モードで”+”などが入っているところを消す。

→東郷さん、SaTScan(http://www.satscan.org/「GISで空間分析」(古今書院)に紹介がある)でやってみた。

結果:12個クラスターが検出された。→このクラスターの意味するものは?

分析手法:属性は空間だけ(時空間の情報を入れられる/Descrete Poisson(User Guide p12)(離散ポアソンモデル))

分析目的:人口に対するひったくり発生件数を調べた。

データの説明: 人口データは国勢データ(男女別・年齢(5歳階級)別人口/http://www.city.osaka.lg.jp/keikakuchosei/page/0000015556.html)

国勢調査の小地域調査:「秘匿措置」個人が特定されてしまう可能性があるのでその場合は、@など具体的な数が分からなくなっている。

ポリゴンの中心点(Arcで求めた)を中心とする円で

発生地点人口

町丁目(ESRIの販売データ/http://www.esrij.com/products/contents.html)に対してID(ESRIのID参考)を振る

参考文献

SaTScan関係

「GISで空間分析」(古今書院)

今後の方針

次回の予定

日時:2010年3月8~10日くらい 内容:東郷さんデータの続き

後日追記(by 小野原)

開発環境について

Rエディタ

  • Reditor(元々Rに組み込まれているもの)
  • NpptoR
  • R.app

エディタではないがエディタとしても使えるRパッケージ

  • Rcmdr(*.Rでスクリプトを保存)
  • pmg(データセットを記憶してくれる?未検証)

統合開発環境(R仕様にできるもの)

  • Komodo Edit+ Sciviews-K,R
  • eclipse+StatET
  • Geany
  • Sciviews-R on R side