WEKO3
アイテム
同位語を利用した不在インデックス
https://ipsj.ixsq.nii.ac.jp/records/74066
https://ipsj.ixsq.nii.ac.jp/records/74066c2d77aee-92be-4576-9b8a-6bbd5c477743
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2011 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2011-05-09 | |||||||
タイトル | ||||||||
タイトル | 同位語を利用した不在インデックス | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Non-Existence Index using Coordinate Terms | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 構文解析・検索・文法 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
京都大学大学院情報学研究科/現在,楽天技術研究所. | ||||||||
著者所属 | ||||||||
京都大学工学部電気電子工学科/現在,NTTコミュニケーションズ. | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Electrical and Electronic Engineering, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University. | ||||||||
著者名 |
新里圭司
× 新里圭司
|
|||||||
著者名(英) |
Keiji, Shinzato
× Keiji, Shinzato
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 自然文検索では,文書中に出現する単語,同義語・句,係り受け関係をインデックスに登録し,これらを検索時の文書収集やスコアリングに利用する.しかしながら,クエリ中の語・句の同位語が含まれる文書の適合度を誤りやすいという問題がある.本稿では,文書に「書かれていない」ということを表す不在タームを,国語辞典・ウィキペディアより獲得した同位語を利用して生成し,これを利用することで高速に不適合文書を検出する手法を提案する.NTCIR-3/4で構築されたテストセットを用いて提案手法を評価した結果,82.9%の精度で不適合文書を検出できることがわかった. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In natural language search, words, synonyms and dependencies in a document are indexed, and they are exploited for document retrieving and scoring. Natural language search, however, is likely to regard irrelevant documents including coordinate words of terms in a query as relevant ones. To solve the above problem, this paper proposes a non-existence term which means that a document does not describe information. For instance, the non-existence term “pigeon → damage” extracted from the document D means that the document D does not describe “damage of pigeon.” Non-existence terms are generated by using coordinate words extracted from an ordinary dictionary and Wikipedia, and allow search engines to rapidly detect irrelevant documents. We evaluated the effectiveness of non-existence terms using the test collection constructed by NTCIR-3/4 competition. Experimental results showed that the proposed method achieved 82.9% in precision for irrelevant document detection. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2011-SLP-86, 号 15, p. 1-7, 発行日 2011-05-09 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |