WEKO3
アイテム
記号と未知語の分布を用いたベイジアンスパムフィルタの提案
https://ipsj.ixsq.nii.ac.jp/records/61839
https://ipsj.ixsq.nii.ac.jp/records/61839b871d4e6-d11a-48e3-bfe3-2428d78a3d3c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-02-26 | |||||||
タイトル | ||||||||
タイトル | 記号と未知語の分布を用いたベイジアンスパムフィルタの提案 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Proposal on Bayesian Spam Filter Using Distribution of Symbol and Unknown Word | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
京都工芸繊維大学大学院工芸科学研究科 | ||||||||
著者所属 | ||||||||
京都工芸繊維大学大学院工芸科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyoto Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyoto Institute of Technology | ||||||||
著者名 |
小川, 健司
× 小川, 健司
|
|||||||
著者名(英) |
Kenji, Ogawa
× Kenji, Ogawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年,パソコンや携帯電話が普及する中,通信手段として電子メールが多く利用されている.その中で,ユーザの意思に関わらず,有害かつ悪質なメールを受信することが多くある.なかには出会い系サイトへの勧誘等の犯罪性が高いメール等もあり,無視できなくなってきた.この対策手段の1つとして,フィルタリングがある.特に,ベイジアンスパムフィルタは統計的手法によりメールのスパム確率,つまり迷惑メールである確率を求め,継続的な学習によりフィルタの性能を向上させることができるため幅広く用いられている.しかし,ベイジアンスパムフィルタでも検知が難しいメールが存在する.このようなメールはメール本文中に含まれる単語の間に☆や★などの記号を挟んだり,記号を羅列している傾向がある.本報告では,まず最初に最近の迷惑メールと正規メール各1000通ずつについてメール本文中の記号と未知語の分布を調査した結果を示す.その結果,両者の間には明確な分布の違いがあることが明らかになった.そこでその違いをベイジアンスパムフィルタにおけるスパム確率の算出の際に利用する新たなフィルタを提案し,その性能を評価する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Recently, spam mail, that is an irrelevant and unsolicited mail, is one of the most serious problem in Internet. A Bayesian spam filter is a popular method to deal with the problem at a recipient computer. However, a mail which includes many symbols and unknown words is hardly classified accurately by a conventional Bayesian spam filter. In this report, we propose a new Bayesian type spam filter which utilize a distribution of symbols and unknown words included in the received mail. We confirm the performance of the proposed method by experiment. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA12326962 | |||||||
書誌情報 |
研究報告インターネットと運用技術(IOT) 巻 2009, 号 21(2009-IOT-4), p. 209-212, 発行日 2009-02-26 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |