WEKO3
アイテム
Support Vector Machineによるテキスト分類における属性選択
https://ipsj.ixsq.nii.ac.jp/records/12353
https://ipsj.ixsq.nii.ac.jp/records/1235396bcbcce-ea57-4b71-8384-09e42ed7f94b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2000 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2000-04-15 | |||||||
タイトル | ||||||||
タイトル | Support Vector Machineによるテキスト分類における属性選択 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Feature Selection in SVM Text Categorization | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | メディア情報処理 | |||||||
著者所属 | ||||||||
NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
ATR人間情報通信研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Human Information Processing Research Laboratories | ||||||||
著者名 |
平, 博順
春野, 雅彦
× 平, 博順 春野, 雅彦
|
|||||||
著者名(英) |
Hirotoshi, Taira
Masahiko, Haruno
× Hirotoshi, Taira Masahiko, Haruno
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文ではSupport Vector Machine(SVM)を使ったテキスト分類における属性選択手法について述べる.我々は最適な属性選択を調べるため相互情報量を基準とした属性選択と品詞を基準とした属性選択を比較した.前者の実験では相互情報量の大きい単語を順に追加して属性を増やし,後者の実験では普通名詞のみの単語属性から始めて固有名詞,サ変名詞,未定義語,動詞を追加して属性を増やした.その結果,1)最適な属性数はカテゴリごとに異なるが,2)平均すると品詞基準の属性選択で普通名詞,固有名詞,サ変名詞,未定義語,動詞の5品詞の単語をすべて使用したときに最高の精度が得られた.この結果からSVMの汎化能力は非常に高く,高い分類精度を得るためには品詞によるフィルタリングという単純な処理のみを行い,後は全単語を入力として用いればよいことが明らかになった. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper investigates the effect of prior feature selection in Support Vector Machine (SVM) text categorization. The input space was gradually increased by using mutual information (MI) filtering and part-of-speech (POS) filtering, which determine the portion of words that are appropriate for SVM learning from the information-theoretic and the linguistic perspectives, respectively. The experimental results are that 1) the optimal number of features differed completely across categories, and 2) the average performance for all categories was best when all of the words were used. In addition, a comparison of the two experiments clarified that POS filtering consistently outperformed MI filtering, which indicates that SVMs cannot find irrelevant parts of speech. These results suggest a simple strategy for using a full number of words found through a rough filtering technique like part-of-speech tagging. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 41, 号 4, p. 1113-1123, 発行日 2000-04-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |