WEKO3
アイテム
半構造化テキストの分類のためのブースティングアルゴリズム
https://ipsj.ixsq.nii.ac.jp/records/10818
https://ipsj.ixsq.nii.ac.jp/records/10818c3793de8-5109-4515-a307-83ee50c794c6
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2004 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2004-09-15 | |||||||
タイトル | ||||||||
タイトル | 半構造化テキストの分類のためのブースティングアルゴリズム | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Boosting Algorithm for Semi-structured Text Classification | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | データマイニング | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科/現在,日本電信電話株式会社NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Science and Technology/Presently with NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Science and Technology | ||||||||
著者名 |
工藤, 拓
× 工藤, 拓
|
|||||||
著者名(英) |
Taku, Kudo
× Taku, Kudo
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年,テキスト分類は,単純なトピック分類から,文のモダリティ,意見性,主観性といった書き手の意図に基づく分類へと,そのタスクの多様化が進んでいる.それにともない,単語の集合(bag-of-words)を素性とする古典的手法では十分な精度を得にくくなっている.精度向上には,テキストの構造(構文/レイアウト)を考慮する必要があるが,恣意的に選択された部分構造のみを用いた手法が多い.本稿では,構造を考慮したテキスト分類(半構造化テキスト分類)に向け,部分木を素性とするdecision stumpsと,それを弱学習器とするBoostingアルゴリズムを提案する.また,Tree Kernelを用いたSVMとの関連性,および本手法の利点について言及する.実データを用いた実験により,提案手法の有効性を検証する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | The research focus in text classification has expanded from a simple topic identification to a more challenging task, such as opinion/modality identification. For the latter, the traditional bag-of-word representations are not sufficient, and a richer, structural representation will be required. Accordingly, learning algorithms must be able to handle such sub-structures observed in text. In this paper, we propose a Boosting algorithm that captures sub-structures embedded in text. The proposal consists of i) decision stumps that use subtrees as features and ii) Boosting algorithm in which the subtree-based decision stumps are applied as weak learners. We also discuss a relation between our algorithm and SVM with Tree Kernel. Two experiments on the opinion/modality classification tasks confirm that subtree features are important. Our Boosting algorithm is computationally efficient for classification tasks involving discrete structural features. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 45, 号 9, p. 2146-2156, 発行日 2004-09-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |