Gis and r 010
※Wiki記法の書き方については http://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8 を参照。
目次
第10回GIS+R勉強会
参加者
- 清野(リアル)
- 小野原(リアル)
- 瀬戸(リアル)
- 東郷(リアル)
報告
清野
Shift_JISのshapeファイル(shpファイル)をUTF-8に変換する方法。
※日本の省庁などが配布しているデータは多くの場合、文字コードがShift_JISである。しかし、QGISなどでShift_JISのshpファイルを開くと日本語属性が文字化けを起こす。そのため、UTF-8に変換する必要がある。
- あるshpファイル(X.shpとする)にはかならず複数の同名の別形式のファイル(X.dbf, Xprj, X.qpj, X.shx)が同時に生成されている。これらは、実際のshpファイルに含まれる個別のデータや投影法に関するデータであるが、この中のX.dbfが個別のデータの格納されている。
- 拡張子dbfのファイルは、dBase形式のファイル。Microsoft Excel等でも開くことはできるが、ここではフリーソフトウェアのOpenOffice.orgのCalcを利用する。
- まずX.dbfをCalcで開き、「名前をつけて保存」からテキストCSVで保存しなおす。その保存しなおす際に文字列の文字コードを聞かれるので、この時「Unicode(UTF-8)」を選ぶ。区切り記号は何でもよい(Calcで後で読み込めれば)。
- 保存したcsvファイルをもう一度OpenOffice.orgCalcで開き直す。この際文字コードをUTF-8で読み込む。
- きちんと列が分かれてインポートされたかを確認する。
- 最後にこの読み込んだcsvファイルを再度「名前をつけて保存」から、今度は保存形式をdbase(.dbf)で保存しなおす。
- そして元のX.dbfと同じ名前にする(上書きする)。
これでQGISでshpファイルを開くときちんと日本語で読み込めるようになっている。
瀬戸
国勢調査の小地域集計をGISで表示する方法
- 政府統計のページ(e-stat)へアクセス http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
- 「地図で見る統計(統計GIS)」から「データダウンロード」を選択
- 「統計調査(集計)を選択」(ex.平成17年国勢調査、小地域)し、統計表を選択。次へ(男女別人口総数及び世帯総数)
- 「地域を選択」(複数市町村を選択可能)し、ダウンロードデータを選択。ここで、統計表(.csv)に加えて、shapeファイル形式でもダウンロード可能。
※ここでの境界データは、統計業務のために作成されたものであるため、必ずしも行政区画と一致しているわけではない。使用上の注意事項等は、http://www.e-stat.go.jp/SG1/NetHelp10/WordDocuments/_1.htm を参照のこと
用いたGISデータの説明
- area_osaka_city
ESRIジャパンが無償で提供しているshapeデータであるが、サンプルデータのため精度の保証はない。
- pp_n860
出典:大阪警察犯罪発生マップ とCSISのアドレスマッチングサービス
を使って、住所から緯度経度をプロット
cf.Google Maps APIを使ったジオコーディングと地図化という方法もある。
空間単位(住所精度):町丁目のため「付近」と表記され、具体的な街区までは秘匿されている
期間:2010年2月19日から2010年3月31日までの期間
発生件数:860点
- train_osaka_city
出典:(後で追記すること)
- kdbw500gr
tifファイルは sda4ppでカーネル密度を求めた結果。元データはpp_n860ファイル
分析内容
カーネル密度推定:バンド幅500mとセルサイズ25m四方で算出 (cf.東京の事例研究を参考にしている→書誌情報:)
点の精度の問題
点の間の内挿をした。
相談・議論内容
- カーネル密度に関して
- 設定するセルサイズが小さすぎる?
- カーネル密度を算出するだけでなく、他の空間データの分布傾向と重ね合わせて比較する。
- 年代別、時間帯でデータを区切って分析。
- カーネル密度を出した後、そのラスタデータの扱い方をどうするのか?
- 空間スキャン統計量を使う?
Rでshpを読み込めない→QGISの編集モードで”+”などが入っているところを消す。
→東郷さん、SaTScan(http://www.satscan.org/「GISで空間分析」(古今書院)に紹介がある)でやってみた。
結果:12個クラスターが検出された。→このクラスターの意味するものは?
分析手法:属性は空間だけ(時空間の情報を入れられる/Descrete Poisson(User Guide p12)(離散ポアソンモデル))
分析目的:人口に対するひったくり発生件数を調べた。
データの説明: 人口データは国勢データ(男女別・年齢(5歳階級)別人口/http://www.city.osaka.lg.jp/keikakuchosei/page/0000015556.html)
国勢調査の小地域調査:「秘匿措置」個人が特定されてしまう可能性があるのでその場合は、@など具体的な数が分からなくなっている。
ポリゴンの中心点(Arcで求めた)を中心とする円で
発生地点人口
町丁目(ESRIの販売データ/http://www.esrij.com/products/contents.html)に対してID(ESRIのID参考)を振る
参考文献
SaTScan関係
「GISで空間分析」(古今書院)
今後の方針
次回の予定
日時:2010年3月8~10日くらい 内容:東郷さんデータの続き
後日追記
開発環境について
Rエディタ
- Reditor(元々Rに組み込まれているもの)
- NpptoR
- R.app
統合開発環境(R仕様にできるもの)
- Komodo Edit+ Sciviews-K,R
- eclipse+StatET
- Geany
- Sciviews-R on R side