@article{oai:ipsj.ixsq.nii.ac.jp:00066471, author = {藤田, 拓也 and 松本, 章代 and テュールストマーティンヤコブ and Takuya, Fujita and Akiyo, Matsumoto and Martin, J.Durst}, issue = {9}, journal = {情報処理学会論文誌}, month = {Sep}, note = {近年,社会問題ともなっているスパムメールに対抗するために,ベイズ理論を応用したスパムメールフィルタであるベイジアンフィルタが脚光を浴びている.しかし,社会環境のグローバル化により,多言語環境においても利用可能なスパムメールフィルタが求められている現在において,言語や文字コードの知識を用いないベイジアンフィルタは十分に検討されたとはいえない状況である.そこで本論文では,ベイジアンフィルタに最適な,言語知識を用いないトークン抽出方式の提案と評価を行う.具体的には,電子メールの構造に基づいたトークンへの属性付与や,適切なトークン長のバイト単位N-gramによって,実用的な判別精度を持ったスパムメールフィルタが実現できることを明らかにする.また,言語の異なる複数のメールコーパスを用いた実験によって,言語や文字コードの知識を用いる既存手法との比較を行い,提案手法の有効性を示す., Recently, Bayesian filters have attracted attention as a means to combat spam E-mail, which has become a social problem. However, not enough attention has been given to Bayesian filters that do not use knowledge about language or character encoding. This is an important requirement in today's multilingual society. This paper proposes and evaluates methods of languageindependent token extraction optimized for Bayesian filters. We use byte-level N-gram tokens of appropriate length and assign attributes to these tokens based on E-mail structure. This leads to a spam filter with a discrimination accuracy high enough for use in practice. We also compare our proposed methods with existing methods that use knowledge about the language or character encoding using several E-mail corpora with different languages, and show the effectiveness of the newly proposed methods.}, pages = {2182--2192}, title = {ベイジアンフィルタにおける言語知識を用いないトークン抽出方式の提案と評価}, volume = {50}, year = {2009} }