WEKO3
アイテム
レレバンスフィードバックにおける検索語の共起関係推定処理の高速化
https://ipsj.ixsq.nii.ac.jp/records/11847
https://ipsj.ixsq.nii.ac.jp/records/1184704743dfd-a18c-4f4d-b3d0-cbcb70080df7
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-10-15 | |||||||
タイトル | ||||||||
タイトル | レレバンスフィードバックにおける検索語の共起関係推定処理の高速化 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Efficient Estimation of Co-occurences of Query Words in Relevance Feedback | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 情報学基礎 | |||||||
著者所属 | ||||||||
株式会社NTTデータオープンシステムセンタ/現在,日本電信電話株式会社 | ||||||||
著者所属 | ||||||||
株式会社NTTデータ北米技術センタ/現在,NTT DATA AgileNet L..L..C. | ||||||||
著者所属 | ||||||||
株式会社NTTデータオープンシステムセンタ/現在,株式会社NTTデータ開発本部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Open System Center, NTT Data Corporation/Presently with Nippon Telegraph and Telephone Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Technical Center of California, NTT Data Corporation/Presently with NTT DATA AgileNet L..L..C. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Open System Center, NTT Data Corporation/Presently with Research and Development Headquarters, NTT Data Corporation | ||||||||
著者名 |
中島, 浩之
× 中島, 浩之
|
|||||||
著者名(英) |
Hiroyuki, Nakajima
× Hiroyuki, Nakajima
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | レレバンスフィードバックを実現する手法であるRocchioフィードバックは,文書検索の精度を向上させる有効な手法として知られている.筆者らは検索された文書に適当なスコアを与えるため,決定木学習アルゴリズムID3を用いて検索語間の共起関係を抽出し,検索結果の優先順位に反映させることでRocchioフィードバックの検索精度を向上させる手法をこれまでに提案した.この際,検索者により必要ないし不要の判定をされていない文書(非サンプル文書)を仮想的な不要文書としてID3に与えることで,より高い精度向上効果が得られることが分かっているが,扱う文書データベース中の文書数に比例して共起推定の処理時間が増加するという欠点があった.本稿では非サンプル文書の集合において,検索語が互いに独立かつ一様な確率で各文書に分布していると仮定することによりID3の決定木に登場する非サンプル文書の数を推定し,実際の非サンプル文書集合の代用とすることで,ID3で処理する学習例数を減少させる手法を提案する.実験の結果,提案手法は従来手法とほぼ同等の検索精度向上を実現し,共起推定処理は10倍以上高速化できることが分かった. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Rocchio feedback is known to be effective in improving retrieval accuracy through relevance feedback. The authors proposed to use ID3 inductive learning algorithm for capturing co-occurences of query words in order to correct the order of ranked results of the Rocchio feedback, and experimental results showed that if we regarded non-sample documents as provisional irrelevant samples, estimated co-occurences effectively improved the acccuracy.Although the provisional samples are effective, they increase the processing time of estimating co-occurences, because the ID3 requires processing time proportional to the number of samples.In this paper, we assume that query words appear in the non-sample documents following independent and uniform probability distributions.Under this assumption, we estimate the number of non-sample documents appear in the ID3, and substitute the estimated number for the non-sample documents themselves to reduce the number of samples which are dealt by ID3.Experimental results show that the proposed method improves the processing time by 10 times, and the improvement of retrieval accuracy is not effected much. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 42, 号 10, p. 2429-2440, 発行日 2001-10-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |