「Gis and r 013」の版間の差分

提供: OSGeo.JP Wiki
移動: 案内検索
行12: 行12:
  
 
=====研究対象地域=====
 
=====研究対象地域=====
*周辺集落において関西式アクセントが主流であるなかで,同集落のみ島状の関東式アクセント地域に属する
+
*周辺集落において関西式アクセントが主流であるなかで,戸入集落のみ関東式アクセント地域に属する
*縄文時代の遺跡分布が特異(1970〜80年代の徳山ダム建設による徳山集落水没の際に大規模な発掘調査がおこなわれた)
+
*また、余談として戸入集落周辺に立地する縄文時代の遺跡分布が他と比較して特異(1970〜80年代の徳山ダム建設による徳山集落水没の際に大規模な発掘調査がおこなわれた)
  
 
=====修論の結果=====
 
=====修論の結果=====
#岐阜県全域の方言分布と縄文土器の形式分布との関係性
+
#岐阜県全域の方言分布と縄文土器の型式分布との関係性
 
#方言分布と地形(標高)の関係性
 
#方言分布と地形(標高)の関係性
 
を明らかにした.
 
を明らかにした.
*方法論の検討がメイン(具体的には,[http://www.gsi.go.jp/GIS/stdindex.html 地理情報標準]に準拠したメタモデルである'''正規化圧縮距離(NCD)'''を分析に使用可能かどうかを検討 -> 使用は妥当と判断,博論へ)
+
*方法論の検討がメイン(具体的には,[http://www.gsi.go.jp/GIS/stdindex.html 地理情報標準]に準拠したメタモデルを'''正規化圧縮距離(NCD)'''という情報量に一旦置き換えるという一連のプロセスを経たデータが分析に使用可能かどうかを検討 -> 使用は妥当と判断,博論へ)
  
 
=====研究資料=====
 
=====研究資料=====
行26: 行26:
 
=====分析方法=====
 
=====分析方法=====
 
#他の諸現象と比較するために,方言現象をあてはめるメタモデルを作成する
 
#他の諸現象と比較するために,方言現象をあてはめるメタモデルを作成する
#メタモデルをXMLインスタンス化
+
#メタモデルをXMLインスタンス化(標準の符号化規則に従って)
#(NCDに適したデータにするために)データを処理,NULL値が多いところを除いた110地点を基本調査単位とする
+
#(NCDに適したデータにするために)メタモデルの構造を若干修正する必要性あり。NULL値が多い調査地点を除いた110地点を基本調査単位とする
#NCDを用いて出てきた数値をクラスタリングするために, PAMを用いる
+
#NCDを用いて出てきた数値をクラスタリングするために, PAM(非階層的クラスタリングの一種)の他,階層的クラスタリング法,グラフクラスタリング的手法,系統学的方法を用いた
 +
#複数の手法を用いるのは,手法によってバイアスの掛け方が異なるため,どのバイアスの掛け方が良いかを議論に含めるため
  
 
=====NCD(Normalised Compression Distance 正規化圧縮距離)=====
 
=====NCD(Normalised Compression Distance 正規化圧縮距離)=====
*方言という膨大かつ煩雑なデータを'''圧縮'''し,処理能力を高める -> 現象の数量化
+
*方言という膨大かつ煩雑なデータを'''圧縮'''し、情報量に置き換える -> 現象の数量化
*e.g. xxyy ->xy
+
*X=xyy,Y=xxyy XにYを接続して圧縮⇒xyyxxyyという文字列の圧縮⇒XxXといったような圧縮の原理を用いて、XYからX,Yの小さい方を差し引き、X,Yの大きい方で割ることで求められる情報量。
 +
圧縮原理を用いるので圧縮できるファイルであればどのようなデータファイルでも良い(文字データ、画像データ、音楽データetc)
 +
*圧縮形式には様々なものがあるため、NCDと一口に言っても、結果として返される値は圧縮形式に依存する。
 +
*留意点:データファイルの情報のどの部分がどう圧縮され、結果として返されたのかは圧縮のアルゴリズムを知る必要があるため、元データの特徴量を知る必要がある場合には、別途処理が必要となる。
  
=====PAM=====
+
=====PAM(Partitioning around Medoids)=====
*データに最適な分類クラスター数を求める
+
*非階層的クラスタリングの一種。クラスタの中心付近に位置するオブジェクトを見て、そこからの距離の二乗和が最小になるような分割を考えるという手法。
  
 
===議論===
 
===議論===

2011年5月13日 (金) 23:15時点における版

第13回GIS+R勉強会

参加者

  • 小野原(リアル)
  • 清野(リアル)
  • 安藤(リアル)
  • 東郷(リアル)

報告

小野原

博論テーマ「岐阜県徳山村戸入(とにゅう)集落の集落特性の抽出方法について」で用いる方法論の検討

研究対象地域
  • 周辺集落において関西式アクセントが主流であるなかで,戸入集落のみ関東式アクセント地域に属する
  • また、余談として戸入集落周辺に立地する縄文時代の遺跡分布が他と比較して特異(1970〜80年代の徳山ダム建設による徳山集落水没の際に大規模な発掘調査がおこなわれた)
修論の結果
  1. 岐阜県全域の方言分布と縄文土器の型式分布との関係性
  2. 方言分布と地形(標高)の関係性

を明らかにした.

  • 方法論の検討がメイン(具体的には,地理情報標準に準拠したメタモデルを正規化圧縮距離(NCD)という情報量に一旦置き換えるという一連のプロセスを経たデータが分析に使用可能かどうかを検討 -> 使用は妥当と判断,博論へ)
研究資料
  • 奥村三雄 1976.『岐阜方言の研究』.大衆書房.
分析方法
  1. 他の諸現象と比較するために,方言現象をあてはめるメタモデルを作成する
  2. メタモデルをXMLインスタンス化(標準の符号化規則に従って)
  3. (NCDに適したデータにするために)メタモデルの構造を若干修正する必要性あり。NULL値が多い調査地点を除いた110地点を基本調査単位とする
  4. NCDを用いて出てきた数値をクラスタリングするために, PAM(非階層的クラスタリングの一種)の他,階層的クラスタリング法,グラフクラスタリング的手法,系統学的方法を用いた
  5. 複数の手法を用いるのは,手法によってバイアスの掛け方が異なるため,どのバイアスの掛け方が良いかを議論に含めるため
NCD(Normalised Compression Distance 正規化圧縮距離)
  • 方言という膨大かつ煩雑なデータを圧縮し、情報量に置き換える -> 現象の数量化
  • X=xyy,Y=xxyy XにYを接続して圧縮⇒xyyxxyyという文字列の圧縮⇒XxXといったような圧縮の原理を用いて、XYからX,Yの小さい方を差し引き、X,Yの大きい方で割ることで求められる情報量。

圧縮原理を用いるので圧縮できるファイルであればどのようなデータファイルでも良い(文字データ、画像データ、音楽データetc)

  • 圧縮形式には様々なものがあるため、NCDと一口に言っても、結果として返される値は圧縮形式に依存する。
  • 留意点:データファイルの情報のどの部分がどう圧縮され、結果として返されたのかは圧縮のアルゴリズムを知る必要があるため、元データの特徴量を知る必要がある場合には、別途処理が必要となる。
PAM(Partitioning around Medoids)
  • 非階層的クラスタリングの一種。クラスタの中心付近に位置するオブジェクトを見て、そこからの距離の二乗和が最小になるような分割を考えるという手法。

議論

  • 地形の傾斜(slope)および傾斜方位(aspect)の求め方(QGISを用いる場合):GRASSないしラスタベース地形解析プラグインなど
  • 調査地点の精度の問題(市町村役場,大字,字,聞き取り対象者の居住地レベル?)
  • 岐阜県全域のshapefile(ソース:ksj,座標系JGD2000)をRで表示した時の歪み(横に長くなる)の問題について -> 投影変換
  • 分析手法のアルゴリズムの検討
  • 戸入集落の特異性とそれを生じさせる要因を明らかにするための理論と方法は?ミクロ・メゾ・マクロレベルのマルチスケールで考察する必要がある?
  • 経済,信仰など人口移動につながる諸現象との関連性を検討(時空間的・地誌的な作業が必要になる?)

参考文献

今後の方針

次回の予定

日時:5月18日(水)19:00〜

場所:同志社今出川キャンパス

内容:色々