「Gis and r 011」の版間の差分
(ページの作成: 表紙へ戻る ※Wiki記法の書き方については http://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8 を参照。 ==第11回GIS+R勉強会== ==…) |
(→次回の予定) |
||
(2人の利用者による、間の13版が非表示) | |||
行10: | 行10: | ||
*清野(リアル) | *清野(リアル) | ||
*小野原(リアル) | *小野原(リアル) | ||
− | * | + | *渡邉(リアル) |
*東郷(リアル) | *東郷(リアル) | ||
===報告=== | ===報告=== | ||
====東郷==== | ====東郷==== | ||
+ | =====前提:「ひったくり発生密度」とは===== | ||
+ | 罹患率(単位人口x単位時間あたりの発症例数)の概念を参考に、「単位人口x単位時間あたりの犯罪発生件数」をひったくり発生密度とする。 | ||
+ | 人口の集計単位は、前回調査である平成17年国勢調査の小地域(町字レベル)とし、また、調査期間内において当該地域の人口は前回調査から変化せず一定であったものとする。 | ||
+ | =====時空間スキャン統計量===== | ||
+ | 空間と時間を連続的にとらえるために、地理的位置を示す2次元のx-y平面に対し垂直に交わる時間軸を設け、仮想的なひとつの3次元空間内に事象が分布しているとしたうえで、サイズの変えられる円柱で当該空間内の事象の時空間的集積を検出する方法。時空間スキャン統計量は円柱の内側と外側のひったくり発生確率を比較することで求められる(ここで言うひったくり発生確率とは、上述のひったくり発生密度に単位地区/時間内におけるひったくり発生件数を乗じたもの。後述のひったくり発生尤度を求めるときに用いる)。 | ||
+ | 区画法検定(自由度99のカイ2乗検定)を行った結果 x<sup>2</sup> > x<sup>2</sup><sub>0.01</sub> となり、大阪市のひったくり発生分布は一様パターンではないと考えられるため、帰無仮説 H<sub>0</sub> のモデルとしてポアソン分布を用いる。円筒内の領域を z 、円筒の外側の領域を z<sup>c</sup>、それぞれにおけるひったくり発生密度を r<sub>z</sub>、r<sub>z<sup>c</sup></sub> としたとき、 | ||
+ | |||
+ | 帰無仮説 H<sub>0</sub>: r<sub>z</sub> = r<sub>z<sup>c</sup></sub> | ||
+ | |||
+ | 対立仮説 H<sub>1</sub>: r<sub>z</sub> ≠ r<sub>z<sup>c</sup></sub> | ||
+ | |||
+ | となる。研究対象となる時空間全体の領域を Z 、各領域内のひったくり発生件数を N<sub>Z</sub>、n<sub>z</sub>、n<sub>z<sup>c</sup></sub> としたとき、ポアソン分布モデルの下で H<sub>0</sub>、H<sub>1</sub> の尤度 L<sub>0</sub>、L<sub>1</sub> は | ||
+ | |||
+ | L<sub>0</sub> = r<sub>Z</sub><sup>N<sub>Z</sub></sup> | ||
+ | |||
+ | L<sub>1</sub> = r<sub>z</sub><sup>n<sub>z</sub></sup> r<sub>z<sup>c</sup></sub><sup>n<sub>z<sup>c</sup></sub></sup> | ||
+ | |||
+ | となる。ゆえに求める統計量 Λ は | ||
+ | |||
+ | <TABLE BORDER=0 CELLSPACING=0 CELLPADDING=0> | ||
+ | <TR ALIGN=center> | ||
+ | <TD NOWRAP>Λ = </TD> | ||
+ | <TD NOWRAP><FONT SIZE=3> sup </FONT><BR><FONT SIZE=1>z∈Z</FONT></TD> | ||
+ | <TD NOWRAP> L<sub>1</sub> / L<sub>0</sub> = </TD> | ||
+ | <TD NOWRAP><FONT SIZE=3> sup </FONT><BR><FONT SIZE=1>z∈Z</FONT></TD> | ||
+ | <TD NOWRAP> r<sub>z</sub><sup>n<sub>z</sub></sup> r<sub>z<sup>c</sup></sub><sup>n<sub>z<sup>c</sup></sub></sup> / r<sub>Z</sub><sup>N<sub>Z</sub></sup> I (r<sub>z</sub>, r<sub>z<sup>c</sup></sub>)</TD> | ||
+ | </TR> | ||
+ | </TABLE> | ||
+ | |||
+ | ただし、円柱内の確率がその外側よりも高いものを検出したいので、指標変数 I は r<sub>z</sub> > r<sub>z<sup>c</sup></sub> のとき1、その他の場合は0になるものとする。 | ||
+ | |||
+ | =====方法===== | ||
+ | 時空間統計量の処理にあたって、Martin Kulldorff と Information Management Services Inc. が開発したソフトウェア [http://www.satscan.org/ SatScan] を用いた。 | ||
+ | |||
+ | 走査円柱の参照点となる大阪市の町字の重心(緯度経度)は、平成17年国勢調査境界データに記載されている「図形中心点」のデータを用いた([http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do e-Stat])。同じく各地域の総人口も平成17年国勢調査による。ひったくりの点分布は[http://www.map.police.pref.osaka.jp/Public/index.html 大阪府警察犯罪発生マップ]および[http://www.info.police.pref.osaka.jp/ 安まちメール] より得られる情報をもとに作成した。 | ||
+ | |||
+ | 860件の点分布からカーネル密度推定により作成した密度分布図(バンド幅500m、セルサイズ100mx100m)を参考に、走査・検出する円柱の底面半径を最大1km、ひったくりの長期的な集積や転移を問題とするので、円柱の高さを調査期間(2010年2月19日〜同年12月31日)の最大90%に設定した。結果、9個の有意(5%水準)なクラスターが検出された。 | ||
+ | |||
+ | =====議論===== | ||
+ | '''QGISまたはRに関する内容''' | ||
+ | *SDA4PPでカーネル密度推定を用いる場合、isotropic Gaussian以外の関数を指定することはできない。バンド幅、グリッドの大きさ、および範囲設定は指定できる。 | ||
+ | *PythonからRpyをたたく方法もある。PythonからRで呼び出し、計算後にQGISで動かす。 | ||
+ | *Rpyを設定してもよい。Pythonのスクリプトしか読み出せないので、pyという拡張子のスクリプトファイルを読み込んであげる。Rを呼び出すことは可能。 | ||
+ | *Rで処理できると、RでできたグラフをQGISで表示することができる。今回の操作方法は簡単だが、欠点はGISとの連携にある。 | ||
+ | *QGIS上でポリゴンの重心を求める方法。ftoolsのベクタ処理にジオメトリツールがある。重心をどう求めるか自体は自由だが、定義に関する記述は必要である。 | ||
+ | *Rでカーネル密度推定を行う場合、パラメータは自分で設定できるという点で有用である。 | ||
+ | |||
+ | |||
+ | '''時空間スキャン統計による分析結果に関する内容''' | ||
+ | *各クラスターの結果についてどう判断するか。パラメータ設定に対する妥当性の検証を行うべきでは。 | ||
+ | *SaTScanの開発に関する論文が参考になる可能性は大。 | ||
+ | |||
+ | |||
+ | '''データに関する内容''' | ||
+ | *人口データを格納するデータのフィーチャは、e-stat(統計GIS)で公開されている統計データに格納されている。[http://www.osgeo.jp/wiki/index.php/Gis_and_r_010 前回の議論]を確認。 | ||
+ | *無償でダウンロード可能な地図のポリゴンデータは、国土数値情報、基盤地図情報、e-stat(統計GIS)などが挙げられるが、同じ種類のポリゴンデータでも往々にして厳密に重ならない。目的に応じて選択すること。 | ||
+ | *ArcGISデータコレクションに関する著作権規定などについて。使用許諾条件は[http://www.esrij.com/products/datacollection/standard2010/faq.html#q2-3 こちら]。 | ||
===参考文献=== | ===参考文献=== | ||
行24: | 行81: | ||
* 中谷友樹 2008.空間疫学と地理情報システム.保健医療科学 57(2):99-116 | * 中谷友樹 2008.空間疫学と地理情報システム.保健医療科学 57(2):99-116 | ||
* 谷村晋・金明哲 2010.『地理空間データ分析 (Rで学ぶデータサイエンス 7) 』共立出版. | * 谷村晋・金明哲 2010.『地理空間データ分析 (Rで学ぶデータサイエンス 7) 』共立出版. | ||
− | |||
===今後の方針=== | ===今後の方針=== | ||
行30: | 行86: | ||
===次回の予定=== | ===次回の予定=== | ||
− | + | 日時:2010年3月25日(金)19:00- | |
+ | |||
+ | 場所:同志社 | ||
+ | |||
内容: | 内容: |
2011年3月25日 (金) 15:35時点における最新版
※Wiki記法の書き方については http://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8 を参照。
目次
第11回GIS+R勉強会
参加者
- 清野(リアル)
- 小野原(リアル)
- 渡邉(リアル)
- 東郷(リアル)
報告
東郷
前提:「ひったくり発生密度」とは
罹患率(単位人口x単位時間あたりの発症例数)の概念を参考に、「単位人口x単位時間あたりの犯罪発生件数」をひったくり発生密度とする。 人口の集計単位は、前回調査である平成17年国勢調査の小地域(町字レベル)とし、また、調査期間内において当該地域の人口は前回調査から変化せず一定であったものとする。
時空間スキャン統計量
空間と時間を連続的にとらえるために、地理的位置を示す2次元のx-y平面に対し垂直に交わる時間軸を設け、仮想的なひとつの3次元空間内に事象が分布しているとしたうえで、サイズの変えられる円柱で当該空間内の事象の時空間的集積を検出する方法。時空間スキャン統計量は円柱の内側と外側のひったくり発生確率を比較することで求められる(ここで言うひったくり発生確率とは、上述のひったくり発生密度に単位地区/時間内におけるひったくり発生件数を乗じたもの。後述のひったくり発生尤度を求めるときに用いる)。
区画法検定(自由度99のカイ2乗検定)を行った結果 x2 > x20.01 となり、大阪市のひったくり発生分布は一様パターンではないと考えられるため、帰無仮説 H0 のモデルとしてポアソン分布を用いる。円筒内の領域を z 、円筒の外側の領域を zc、それぞれにおけるひったくり発生密度を rz、rzc としたとき、
帰無仮説 H0: rz = rzc
対立仮説 H1: rz ≠ rzc
となる。研究対象となる時空間全体の領域を Z 、各領域内のひったくり発生件数を NZ、nz、nzc としたとき、ポアソン分布モデルの下で H0、H1 の尤度 L0、L1 は
L0 = rZNZ
L1 = rznz rzcnzc
となる。ゆえに求める統計量 Λ は
Λ = | sup z∈Z |
L1 / L0 = | sup z∈Z |
rznz rzcnzc / rZNZ I (rz, rzc) |
ただし、円柱内の確率がその外側よりも高いものを検出したいので、指標変数 I は rz > rzc のとき1、その他の場合は0になるものとする。
方法
時空間統計量の処理にあたって、Martin Kulldorff と Information Management Services Inc. が開発したソフトウェア SatScan を用いた。
走査円柱の参照点となる大阪市の町字の重心(緯度経度)は、平成17年国勢調査境界データに記載されている「図形中心点」のデータを用いた(e-Stat)。同じく各地域の総人口も平成17年国勢調査による。ひったくりの点分布は大阪府警察犯罪発生マップおよび安まちメール より得られる情報をもとに作成した。
860件の点分布からカーネル密度推定により作成した密度分布図(バンド幅500m、セルサイズ100mx100m)を参考に、走査・検出する円柱の底面半径を最大1km、ひったくりの長期的な集積や転移を問題とするので、円柱の高さを調査期間(2010年2月19日〜同年12月31日)の最大90%に設定した。結果、9個の有意(5%水準)なクラスターが検出された。
議論
QGISまたはRに関する内容
- SDA4PPでカーネル密度推定を用いる場合、isotropic Gaussian以外の関数を指定することはできない。バンド幅、グリッドの大きさ、および範囲設定は指定できる。
- PythonからRpyをたたく方法もある。PythonからRで呼び出し、計算後にQGISで動かす。
- Rpyを設定してもよい。Pythonのスクリプトしか読み出せないので、pyという拡張子のスクリプトファイルを読み込んであげる。Rを呼び出すことは可能。
- Rで処理できると、RでできたグラフをQGISで表示することができる。今回の操作方法は簡単だが、欠点はGISとの連携にある。
- QGIS上でポリゴンの重心を求める方法。ftoolsのベクタ処理にジオメトリツールがある。重心をどう求めるか自体は自由だが、定義に関する記述は必要である。
- Rでカーネル密度推定を行う場合、パラメータは自分で設定できるという点で有用である。
時空間スキャン統計による分析結果に関する内容
- 各クラスターの結果についてどう判断するか。パラメータ設定に対する妥当性の検証を行うべきでは。
- SaTScanの開発に関する論文が参考になる可能性は大。
データに関する内容
- 人口データを格納するデータのフィーチャは、e-stat(統計GIS)で公開されている統計データに格納されている。前回の議論を確認。
- 無償でダウンロード可能な地図のポリゴンデータは、国土数値情報、基盤地図情報、e-stat(統計GIS)などが挙げられるが、同じ種類のポリゴンデータでも往々にして厳密に重ならない。目的に応じて選択すること。
- ArcGISデータコレクションに関する著作権規定などについて。使用許諾条件はこちら。
参考文献
時空間スキャン統計量関係
- 中谷友樹・矢野桂司 2008.犯罪発生の時空間3次元地図ーひったくり犯罪の時空間集積の可視化ー.地学雑誌117(2):506-521.
- 中谷友樹 2008.空間疫学と地理情報システム.保健医療科学 57(2):99-116
- 谷村晋・金明哲 2010.『地理空間データ分析 (Rで学ぶデータサイエンス 7) 』共立出版.
今後の方針
引き続き各自のデータを持ち寄って議論。
次回の予定
日時:2010年3月25日(金)19:00-
場所:同志社
内容: