Gis and r 013のソースを表示

[[Gis_and_r|表紙へ戻る]]

※Wiki記法の書き方については
http://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8
を参照。

==第13回GIS+R勉強会==
===参加者===
*小野原（リアル）
*清野（リアル）
*安藤（リアル）
*東郷（リアル）

===報告===

====小野原====
博論テーマ「岐阜県徳山村戸入（とにゅう）集落の集落特性の抽出方法について」で用いる方法論の検討

=====研究対象地域=====
*周辺集落において関西式アクセントが主流であるなかで，戸入集落のみ関東式アクセント地域に属する
*また、余談として戸入集落周辺に立地する縄文時代の遺跡分布が他と比較して特異（1970〜80年代の徳山ダム建設による徳山集落水没の際に大規模な発掘調査がおこなわれた）

=====修論の結果=====
#岐阜県全域の方言分布と縄文土器の型式分布との関係性
#方言分布と地形（標高）の関係性
を明らかにした．
*方法論の検討がメイン（具体的には，[http://www.gsi.go.jp/GIS/stdindex.html 地理情報標準]に準拠したメタモデルを'''正規化圧縮距離（NCD）'''という情報量に一旦置き換えるという一連のプロセスを経たデータが分析に使用可能かどうかを検討 -> 使用は妥当と判断，博論へ）

=====研究資料=====
*奥村三雄 1976．『岐阜方言の研究』．大衆書房．

=====分析方法=====
#他の諸現象と比較するために，方言現象をあてはめるメタモデルを作成する
#メタモデルをXMLインスタンス化（標準の符号化規則に従って）
#（NCDに適したデータにするために）メタモデルの構造を若干修正する必要性あり。NULL値が多い調査地点を除いた110地点を基本調査単位とする
#NCDを用いて出てきた数値をクラスタリングするために， PAM(非階層的クラスタリングの一種)の他，階層的クラスタリング法，グラフクラスタリング的手法，系統学的方法を用いた
#複数の手法を用いるのは，手法によってバイアスの掛け方が異なるため，どのバイアスの掛け方が良いかを議論に含めるため

=====NCD（Normalized Compression Distance 正規化圧縮距離）=====
*方言という膨大かつ煩雑なデータを'''圧縮'''し、情報量に置き換える -> 現象の数量化
*X=xyy,Y=xxyy XにYを接続して圧縮⇒xyyxxyyという文字列の圧縮⇒XxXといったような圧縮の原理を用いて、XYからX，Yの小さい方を差し引き、X，Yの大きい方で割ることで求められる情報量。
*圧縮原理を用いるので圧縮できるファイルであればどのようなデータファイルでも良い（文字データ、画像データ、音楽データetc）
*圧縮形式には様々なものがあるため、NCDと一口に言っても、結果として返される値は圧縮形式に依存する。
*留意点：データファイルの情報のどの部分がどう圧縮され、結果として返されたのかは圧縮のアルゴリズムを知る必要があるため、元データの特徴量を知る必要がある場合には、別途処理が必要となる。

=====PAM(Partitioning around Medoids)=====
*非階層的クラスタリングの一種。クラスタの中心付近に位置するオブジェクトを見て、そこからの距離の二乗和が最小になるような分割を考えるという手法。

===議論===
*地形の傾斜（slope）および傾斜方位（aspect）の求め方（QGISを用いる場合）：'''GRASS'''ないし'''ラスタベース地形解析'''プラグインなど
*調査地点の精度の問題（市町村役場，大字，字，聞き取り対象者の居住地レベル？）:対象地域を絞った際に生ずるであろう個人情報保護の問題など
*調査地点間の補完：グラフ的なデータしかないが、ラスタ的にデータとってきたほうが補完も楽だよね？
*岐阜県全域のshapefile（ソース：ksj，座標系JGD2000）をRで表示した時の歪み（横に長くなる）の問題について -> 投影変換をするタイミング。R上で行うのか，R上でShapefileに吐き出した後，GISソフトで投影変換するのか。どっちでもいいけど，そういう簡単でどうでもいいところに意外と時間を取られるのでそういう作業をさくっとこの勉強会で教えあえたらいいね…という話。理論の話はどうせ各自で勉強しなおさないといけないので，手を動かしたいです，との意見。
*maptoolsの機能にはどういうものがあって自分はどれを使ってるみたいな議論のほうが良い。
*分析手法のアルゴリズムの検討
*戸入集落の特異性とそれを生じさせる要因を明らかにするための理論と方法は？ミクロ・メゾ・マクロレベルのマルチスケールで考察する必要がある？
*道路交通状況，経済・信仰(村外からの人・物の出入り)など方言動態につながる諸現象との関連性を検討（時空間的・地誌的な作業が必要になる？）

===参考文献～NCD関連～===
*[http://www.complearn.org/ NCDの紹介とデータが実装可能な実行ファイルが配布されている]
*[http://www.tani.cs.chs.nihon-u.ac.jp/g-2008/shu/tyukan_shu.pdf 圧縮を用いた類似度判定のための計算実験]
*[http://homepages.cwi.nl/~paulv/papers/japan06.pdf 圧縮度にもとづいた汎用な類似度測定法]
*[http://www.sofken.com/FIT2009/pdf/F/RF_002.pdf コルモゴロフ複雑性に基づく製品・サービスの価値評価]
*[https://kaigi.org/jsai/webprogram/2010/pdf/286.pdf 英作文授業におけるピアリヴュー活動]
*[http://sc.chat-shuffle.net/paper/uid:40015988722 Kolmogorov記述量に基づく類似度距離による方言自動分類の試行 (学術フロンティア推進事業 平成19年度(18年度後期分を含む)の研究報告)]

===今後の方針===

===次回の予定===
日時：5月18日（水）19:00〜

場所：同志社今出川キャンパス

内容：色々