卒業研究

Kolmogorov 記述量に基づく類似度を用いた方言の自動分類

概要

Kolmogorov記述量に基づいたデータ間の類似度に関する距離が定義され、DNAの類似度や言語の類似度、音楽の類似度判定に有用だという実験結果が得られている。本研究ではKolmogorov記述量が方言の類似度分析に対して有用かどうか実験を行なった大江氏の追加研究を行なう。


Quartet method改良型
発表資料
卒業研究発表会スライド(odp) odp
卒業研究発表会スライド(pdf) pdf
レジュメ pdf
スクリプト
ファイル圧縮等全てを行なう all.sh
文字コードをJISに変換 jis.sh
文字コードをSHIFT JISに変換 shift-jis.sh
文字コードをEUCに変換 euc.sh
文字コードをUTF-8に変換 utf-8.sh
前処理1 preprocess-1.sh
前処理2 preprocess-2.sh
プログラム
文字の出現頻度を調べる count.pl
前処理1 Preprocessor.java
前処理2 Preprocessor2.java
類似度の距離を算出 kolmo2.java
NJ法でクラスタリング
(LEDA-5.1を使用)
nj-color-56.cpp
木の評価値を求める
(LEDA-5.1を使用)
tree-evaluation.cpp
Quartet Methodの改良
(LEDA-5.1を使用)
quartet-method.cpp
その他
距離表 momotaro.csv
圧縮率の表 file-data.ods
文字の頻度 count-remake
木の評価値の表 tree-evaluation.ods

研究データ

方言ももたろう(監修・著:杉藤美代子(音声言語研究所 所長))
源氏物語

物置ページ