卒業研究
スパムメール判定に対するKolmogorov 記述量に基づく類似度の有効性
概要
Kolmogorov 記述量に基づいたデータ間の類似度に関する距離が定義され,
DNA の類似度や言語の類似度,音楽の類似度解析に有用だという実験結果が得られてる.
本研究ではKolmogorov 記述量がスパムメールの判定に対して有効かどうか実験を行う.
発表資料
スライド(sxi)
スライド(pdf)
レジュメ(pdf)
プログラム郡
クラスタリング
UPGMA法を使ったクラスタリング
upgma.c
nj法を使ったクラスタリング
nj.c
テキスト処理系のプログラム
Kolmogorov記述量の距離を算出するプログラム(ヘッダ有)
h-d-k.c
Kolmogorov記述量の距離を算出するプログラム(ヘッダ無)
nh-d-k.c
mbox形式のメール郡をメール一つ一つに分割(ヘッダ有)
split-mail.c
mbox形式のメール郡をメール一つ一つに分割(ヘッダ無)
nh-split-mail.c
mbox形式のスパムメール郡をメール一つ一つに分割(ヘッダ有)
split-spam.c
mbox形式のスパムメール郡をメール一つ一つに分割(ヘッダ無)
nh-split-spam.c
Scrpt
ファイル結合、圧縮、ファイルサイズの計測を全て行う
all_process.sh
ファイルサイズの計測
fsize.sh
ファイル結合
union.sh