@techreport{oai:ipsj.ixsq.nii.ac.jp:00066998, author = {北村, 祐貴 and 狩野, 均 and Yuuki, Kitamura and Hitoshi, Kanoh}, issue = {12}, month = {Dec}, note = {近年、インターネット上のスパムメールによる被害が深刻な問題になっている。そのため、スパムメールと正規メールを精度よく分類するためのスパムフィルタが多数提案されている。本論文では、分類の前処理として k-means 法によるクラスタリングを行うことにより分類精度を向上させる手法を提案する。前処理後の分類方法としては、通常のベイジアンフィルタまたは SVM フィルタを用いる。まず、学習に使うメール集合に対して k-means 法を適用し、その後クラスタごとにどのような特徴が表れているかを分析する。その結果に基づいてクラスタごとにフィルタの調整を行うことで分類精度の向上を達成した。TREC Public Corpus を用いた評価実験から、本手法の有効性を確認することができた。, In the recent years, the damage due to spam email has become a serious problem on the internet. Many spam filters have been proposed for classifying spam emails and regular emails with sufficient accuracy have been done. In this paper, we propose the method to improve the accuracy of classification by using a pre-clustering with k-means. A usual Bayesian filter or a usual SVM filter is used as a classification method after the pre-clustering. First, the k-means is applied to the mail set used for learning, and it is analyzed what feature appears for every cluster. Improvement in classification accuracy was achieved by adjusting a filter for every cluster based on the result of the analysis. The experiments using TREC Public Corpus proved that the proposed method is effective as a spam filter.}, title = {事前処理にk-means法を利用したスパムフィルタの開発}, year = {2009} }