WEKO3
アイテム
語の重み付け学習を用いた文書の自動分類
https://ipsj.ixsq.nii.ac.jp/records/12742
https://ipsj.ixsq.nii.ac.jp/records/12742d734f5f9-5899-4102-b0a6-e70f421170a4
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1999 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1999-04-15 | |||||||
タイトル | ||||||||
タイトル | 語の重み付け学習を用いた文書の自動分類 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Term Weight Learning for an Automatic Text Categorisation | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 自然言語処理 | |||||||
著者所属 | ||||||||
山梨大学工学部コンピュータ・メディア工学科 | ||||||||
著者所属 | ||||||||
山梨大学工学部コンピュータ・メディア工学科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Media Engineering, Faculty of Engineering, Yamanashi University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Media Engineering, Faculty of Engineering, Yamanashi University | ||||||||
著者名 |
福本, 文代
× 福本, 文代
|
|||||||
著者名(英) |
Fumiyo, Fukumoto
× Fumiyo, Fukumoto
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では 文書中に現れる語に対し 重み付けの学習を行った結果を用いて文書の自動分類を行う手法を提案する. 我々の手法における学習とは トレーニングデータにおける各文書の分類の誤り結果から正しい重要語を学習することである. すなわち トレーニングデータの文書集合に対しクラスタリングアルゴリズムを適用した結果 文書が正しく分類されない場合 頻度による重み付けが適切でないと見なす. これらの文書どうしに対し重要語が判定され重み付けが行われる. 本手法では 重要語を判定するために文脈依存の度合いという考え方を用いる. これは 文書中の任意の語が 設定された文脈にどのくらい深く関わっているがという度合いの強さを用いることで主題と関係の深い語を抽出し これを重要語と見なす方法である. その結果 重要語には高い重み付けを行い 重要でない語(一般語と呼ぶ)に対しては低い重み付けを行う. 語の重み付けの学習は トレーニングデータ中のすべての文書が正しく分類されるまで繰り返される. 本手法の有効性を検証するためにWall Street Journalを用いて行った実験では78個の分野に属する4 453の文書に対し Lewisらによって提案されたProportional assignment strategyによるBreakeven Pointsで 0.75の正解率が得られた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we propose a method for term weight learning which is used to characterise texts. In our approach, learning is to learn a true keyword from the error of clustering texts. Parameters of term weighting are then estimated so as to maximise the true keyword and minimise the other words in the text. The characteristic of our approach is that the degree of context dependency is introduced to judge whether a word in a text is a true keyword or not. The experiments using Wall Street Journal corpus demonstrate the effectiveness of the method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 40, 号 4, p. 1782-1791, 発行日 1999-04-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |