卒業研究

スパムメール判定に対するKolmogorov 記述量に基づく類似度の有効性
 

概要


 Kolmogorov 記述量に基づいたデータ間の類似度に関する距離が定義され,
 DNA の類似度や言語の類似度,音楽の類似度解析に有用だという実験結果が得られてる.
 本研究ではKolmogorov 記述量がスパムメールの判定に対して有効かどうか実験を行う.


発表資料


スライド(sxi)

スライド(pdf)

レジュメ(pdf)


プログラム郡

   
クラスタリング
UPGMA法を使ったクラスタリング upgma.c
nj法を使ったクラスタリング nj.c
テキスト処理系のプログラム
Kolmogorov記述量の距離を算出するプログラム(ヘッダ有) h-d-k.c
Kolmogorov記述量の距離を算出するプログラム(ヘッダ無) nh-d-k.c
mbox形式のメール郡をメール一つ一つに分割(ヘッダ有) split-mail.c
mbox形式のメール郡をメール一つ一つに分割(ヘッダ無) nh-split-mail.c
mbox形式のスパムメール郡をメール一つ一つに分割(ヘッダ有) split-spam.c
mbox形式のスパムメール郡をメール一つ一つに分割(ヘッダ無) nh-split-spam.c
Scrpt
ファイル結合、圧縮、ファイルサイズの計測を全て行う all_process.sh
ファイルサイズの計測 fsize.sh
ファイル結合 union.sh