WEKO3
アイテム
低頻度語の利用によるテキスト分類性能の改善と評価
https://ipsj.ixsq.nii.ac.jp/records/11187
https://ipsj.ixsq.nii.ac.jp/records/11187f3a4be4a-28c7-4848-a8de-824ec239b249
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-07-15 | |||||||
タイトル | ||||||||
タイトル | 低頻度語の利用によるテキスト分類性能の改善と評価 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Improving the Performance of Text Categorization Using Low Frequency Terms | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 情報検索 | |||||||
著者所属 | ||||||||
国立情報学研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Informatics | ||||||||
著者名 |
相澤, 彰子
× 相澤, 彰子
|
|||||||
著者名(英) |
Akiko, Aizawa
× Akiko, Aizawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文ではテキスト分類における低頻度語の利用とその効果について述べる.テキストに含まれる多数の低頻度語を手がかりとして利用するために,線形判別関数に基づく単純なテキスト分類法に注目し, (1)情報量的な観点に基づく重み付け尺度,(2)確率的言語モデルにおける統計的ディスカウンティング法の適用,(3)形態素解析ツールを利用した複合語抽出処理による性能の改善を目指す.実験では,ともにスケーラビリティに優れた手法である単純ベクトル法やサポートベクタマシンを用いて,大規模なテキスト分類問題における改善や特性を考察する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper aims at investigating the effect of low frequency terms in text categorization problems. In order to utilize information carried by numbers of low frequency terms in text, we use simple text categorization methods with linear decision functions and apply a term weighting scheme based on (1) the concept of probability weighted amount of information,\break (2) discounting technique in probabilistic language modeling, and also, (3) compound noun extraction based on speech-of-tags generated by a standard morphological analyzer. The effects with term vector-oriented and support vector machine-based methods are examined using a large-scale text categorization problem. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 44, 号 7, p. 1720-1730, 発行日 2003-07-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |