WEKO3
アイテム
新たな弱教師付き型分類手法Bautext
https://ipsj.ixsq.nii.ac.jp/records/71904
https://ipsj.ixsq.nii.ac.jp/records/71904030363ee-107f-4cf8-b4ad-0ee5d8585cae
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2011 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2011-01-15 | |||||||
タイトル | ||||||||
タイトル | 新たな弱教師付き型分類手法Bautext | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Bautext as a New Minimally Supervised Classification Technique | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 一般論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
電気通信大学大学院電気通信学研究科/楽天技術研究所 | ||||||||
著者所属 | ||||||||
科学技術振興機構さきがけ/電気通信大学情報理工学部 | ||||||||
著者所属 | ||||||||
電気通信大学電気通信学部/電気通信大学大学院情報理工学研究科 | ||||||||
著者所属 | ||||||||
新潟大学工学部情報工学科 | ||||||||
著者所属 | ||||||||
楽天技術研究所 | ||||||||
著者所属 | ||||||||
楽天技術研究所 | ||||||||
著者所属 | ||||||||
楽天技術研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Electro-Communications, University of Electro-Communications / Rakuten Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
PRESTO, Japan Science and Technology Agency (JST) / University of Electro-Communications | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Electro-Communcations, University of Electro-Communications / Graduate School of Infomatics and Engineering, University of Electro-Communications | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Engineering, Faculty of Engineering, Niigata University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Rakuten Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Rakuten Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Rakuten Institute of Technology | ||||||||
著者名 |
グェンファムタンタオ
× グェンファムタンタオ
|
|||||||
著者名(英) |
Nguyen, PhamThanhThao
× Nguyen, PhamThanhThao
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,web上の大量のレビュー情報を要約する際の基盤技術として,単語を意味的カテゴリに分類するための手法,Bautextを提案し評価する.Bautextは弱教師付き手法であり,係り受け関係と相互情報量に基づいた名詞・名詞句のカテゴリ分類を行う.Bautextの特徴は以下の4つである.1)既存のブートストラッピング法等は,性能が多数のパラメータに依存するため,ユーザは良い分類精度を得るためのパラメータ設定を試行錯誤して見つける必要があった(小町ら,2010).一方,Bautextにおいてはユーザは多数のパラメータ設定をする必要がなく,少数の種語を与え,各カテゴリと単語の関連度(配属スコア)を計算することにより,漸次種語を増加させ,分類を自動化させている.2)既存のブートストラッピング法では,反復ごとに多数のカテゴリが1つの単語を獲得しようとするときに再度評価のステップがあった.一方,Bautextにおいては,各カテゴリが独立な特徴語集合を持ち,それをもとに各カテゴリへの単語の配属スコアを計算し,最大スコアのカテゴリが単語を獲得することでこの再度評価のステップをなくした.そのため,ブートストラッピング法と比べて高速な分類アルゴリズムとなっている.3)既存のブートストラッピング法では意味ドリフトという課題がある.意味ドリフトの原因は,反復処理の過程において,新しい単語を獲得するために使われる抽出パターン数が定数個であるため,以前の各反復で抽出できた適切な抽出パターンの影響が消されることにあると考えられる.これに対して,Bautextでは,各カテゴリが,独立な特徴語集合に今まで抽出できた適切な特徴語(抽出パータンと同じ役割)を保存することと反復ごとに分類対象の単語をランダムに選択させることにより,意味ドリフトを制御する効果が期待できる.4)目的の分類カテゴリに加えて「その他」カテゴリを導入することで,本来評価対象となりえない単語が「その他」カテゴリに移動し,目的の分類カテゴリの適合率が向上するという特徴がある.評価実験では,まず「その他」カテゴリの導入効果を確認した.また,代表的なブートストラッピング法であるBasiliskおよびEspressoの2手法とBautextとを比較し,両者に比べ,Bautextが分類精度,速度,使いやすさの3点において有効な手法であることを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We present and evaluate Bautext, a method for classifying terms into semantic categories, as a fundamental technique used for review summarization of drastically increasing volume of user reviews on the internet. Bautext is a minimally supervised technique for classifying nouns and noun phrases based on dependency relations and mutual information. Bautext has four important features. 1) There is no parameter that the user must manipulate except for seed words. Using an existing bootstrapping method, the user has to find a reasonable setting of multiple parameters by trial and error, on which the classification accuracy heavily depends (Komachi, et al., 2010). On the other hand, Bautext has no such a parameter, and after specifying seed words, no user intervention is required. 2) Bautext is a fast method compared with state-of-the-art bootstrapping methods. 3) Bautext is supposed to constrain sematic drift with independent feature sets for each category and the randomly choosing a term for classification in each classifation step. 4) We introduce “other” category to improve the precision. Adding an extra “other” category to the target categories, it is possible to improve the precision significantly on the trade-off between precision and recall. In our experiment, we compare Bautext with two major bootstrapping methods, Basilisk and Espresso, which show that Bautext is superior in classification accuracy, computational expense, and usability. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 52, 号 1, p. 269-283, 発行日 2011-01-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |