WEKO3
アイテム
最大エントロピー原理に基づく付加情報の効果的な利用によるテキスト分類
https://ipsj.ixsq.nii.ac.jp/records/10159
https://ipsj.ixsq.nii.ac.jp/records/10159a35b7da4-af94-4992-abeb-33698788547b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2006-10-15 | |||||||
タイトル | ||||||||
タイトル | 最大エントロピー原理に基づく付加情報の効果的な利用によるテキスト分類 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Text Classification by Effectively Using Additional Information Based on Maximum Entropy Principle | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 情報検索 | |||||||
著者所属 | ||||||||
日本電信電話株式会社NTT コミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTT コミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
日本電信電話株式会社NTT コミュニケーション科学基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者名 |
藤野, 昭典
× 藤野, 昭典
|
|||||||
著者名(英) |
Akinori, Fujino
× Akinori, Fujino
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Web ページのリンク情報など,本文の他に付加情報を含むテキストデータの分類問題のために,付加情報を同時に用いて高精度な多クラス分類器を設計する手法を提案する.この問題に対して,従来の確率的アプローチでは,生成,識別の各アプローチと,生成,識別アプローチのハイブリッドに基づく分類器が提案されてきた.従来のハイブリッド分類器が2 クラス問題を対象とするのに対して,提案法では多クラス問題を直接扱うハイブリッド分類器を与える.具体的には,データに含まれる構成要素ごとに設計した生成モデルを最大エントロピー原理に基づいて結合することで分類器を構築する.文書やWeb ページに含まれるテキスト,リンクの各構成要素の生成モデルとして,ナイーブベイズモデルを用いる.3 つの実データを用いた分類実験により,付加情報をテキスト分類に用いる効果を確認するとともに,生成,識別アプローチでの分類精度の差が小さいほど提案法による分類精度が両アプローチを大きく上回ることを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We propose a multi-class text classifier that can handle both main text and additional information such as link information in web pages and thus improve classification performance. Existing probabilistic approaches to classifier design with main text and additional components are generative, discriminative, or a hybrid of the two. As the conventional hybrid classifier was designed for binary classification, we present a hybrid classifier for dealing directly with multi-class classification, which is constructed by combining component generative models based on the maximum entropy principle. We use naive Bayes models as component generative models designed for text and link information contained in documents and web pages. Our experimental results for three test collections confirmed the effectiveness of using additional information for text classification. The results also revealed that our hybrid classifier greatly outperformed both the generative and discriminative classifiers when there was little difference in their performance. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 47, 号 10, p. 2929-2937, 発行日 2006-10-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |