WEKO3
アイテム
多義性を軽減した素性セットによるテキスト分類方式
https://ipsj.ixsq.nii.ac.jp/records/48307
https://ipsj.ixsq.nii.ac.jp/records/48307e72a07ed-a75f-4b7d-a719-99254587c02b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-03-06 | |||||||
タイトル | ||||||||
タイトル | 多義性を軽減した素性セットによるテキスト分類方式 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Text Classification with a Polysemy Considered Feature Set | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学大学院工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学情報基盤センター | ||||||||
著者所属 | ||||||||
東京大学情報基盤センター | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Engineering, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology Center, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology Center, University of Tokyo | ||||||||
著者名 |
荒木, 淳
× 荒木, 淳
|
|||||||
著者名(英) |
Jun, Araki
× Jun, Araki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,テキスト分類方式において素性選択法によって選出された素性セットの多義性を軽減する方式について述べる.素性選択は相互情報量などの評価尺度に基づき,その値が高い上位単語を用いる手法が行われてきた.しかしながら,単語には複数の意味を持つ多義語も含まれるため,そういった多義語が素性として選出された場合は意図したカテゴリと異なるカテゴリの文書にも含まれるので分類上問題がある.素性選択の尺度として相互情報量を用いた場合に,素性セットの多義性の問題を解決する手段として単語とカテゴリの共起回数を利用した多義性軽減手法を提案し,Reuters-21578コーパスを用いた分類実験により提案手法の有効性について評価する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a method for considering the polysemy of a feature set in text classification. Feature selection has been performed selecting words with higher evaluation value such as mutual information and so on. however, polysemous words, which have bad influence on calssification accuracy, can be selected as features even if we use the eavluation. We propose the text classification method using the number of times of coincidence of a word and a category. In the experiment we test Reuters-21578 corpus and verify our method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2003, 号 23(2002-NL-154), p. 85-92, 発行日 2003-03-06 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |