| Item type |
Journal(1) |
| 公開日 |
2019-03-15 |
| タイトル |
|
|
タイトル |
単語重みを用いたアソシエーション分析に基づく文書分類のための自動的クエリ拡張 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Automatic Query Expansion for Document Classification Based on Association Analysis with Term Weights |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[特集:若手研究者] アソシエーション分析,文書分類,自動的クエリ拡張,ファジィ集合 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
| 著者所属 |
|
|
|
横浜国立大学大学院工学府 |
| 著者所属 |
|
|
|
横浜国立大学大学院工学府 |
| 著者所属 |
|
|
|
横浜国立大学大学院工学研究院 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, Yokohama National University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, Yokohama National University |
| 著者所属(英) |
|
|
|
en |
|
|
Fuculty of Engineering, Yokohama National University |
| 著者名 |
安永, 翼
山田, 雄基
濱上, 知樹
|
| 著者名(英) |
Tsubasa, Yasunaga
Yuki, Yamada
Tomoki, Hamagami
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
文書分類問題では単語数の少ない文書を分類することが難しい.情報検索分野ではクエリの単語数の少なさに対して,アソシエーション分析に基づきクエリに含まれる単語と関連度の高い単語を追加することで検索性能を改善するクエリ拡張手法がある.しかし文書分類問題においては,クエリに含まれる単語と関連度の高い単語が正しいクラスを特徴付けるとは限らないため,分類性能を改善することはできない.また,従来のアソシエーション分析では文書に対する単語の重要度(単語重み)が考慮されていないため,単語間の関連度が適切でない可能性がある.これらの課題をふまえて,本論文では文書分類性能改善のために2つの提案を行う.(1)クラスごとに分割した文書集合に対してアソシエーション分析を行い,クラスに対する単語の重要度に基づいて推定されたクラスにおいてクエリに含まれる単語との関連度が高い単語を追加する.(2)アソシエーション分析における単語間の関連度計算に単語重みを利用する.実験では,クエリ拡張を用いた単語数の少ない文書の分類タスクを複数のデータセットで実施し,提案手法による拡張後クエリの分類性能改善を確認した.また関連度に設定する閾値に対する評価指標の感度分析により,多くの閾値設定で単語重みを考慮する方が分類性能を改善できることを明らかにした. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We propose automatic query expansion for document classification based on association analysis with term weights. In document classification, it is difficult to classify document with a few terms. Automatic query expansion based on association analysis improves document retrieval performance by adding terms with high relevance to the query terms. However, terms with high relevance to the query terms does not always characterize correct class. Moreover, relevance between terms can be inappropriate in the conventional association analysis because term weights are not considered. For each of these problem, we propose two approaches. (1) we apply association analysis to each document set divided by class and add terms with high relevance to the query terms in the estimated class. (2) we use term weights in calculation of relevance between terms. The experimental result shows that the proposed method improves classification performance in some datasets and use of term weights improves classification performance in many settings of threshold of degree of relevance. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
| 書誌情報 |
情報処理学会論文誌
巻 60,
号 3,
p. 880-889,
発行日 2019-03-15
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |