WEKO3
アイテム
文字成分表を用いた効率的文書ランキング検索方式
https://ipsj.ixsq.nii.ac.jp/records/13287
https://ipsj.ixsq.nii.ac.jp/records/13287cfeda90f-d90c-4e98-b019-98c671e24fb5
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1997 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1997-11-15 | |||||||
タイトル | ||||||||
タイトル | 文字成分表を用いた効率的文書ランキング検索方式 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | An Effecient Document Ranking Retrieval Method Using n -gram- based Signature Files | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | データベース | |||||||
著者所属 | ||||||||
株式会社リコーソフトウェア研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Software Research Center, RICOH Co., Ltd | ||||||||
著者名 |
小川, 泰嗣
× 小川, 泰嗣
|
|||||||
著者名(英) |
Yasushi, Ogawa
× Yasushi, Ogawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 文書検索では,検索要求に対する文書の適切さ(文書スコア)で文書を順序付けするランキング検索が有効であることが知られている.単語の切れ目が明示されない日本語を対象とした場合,文書を形態素解析して単語単位にランキングする方式と,形態素解析を用いずにn?gram単位にランキングする方式がある.しかし,前者には形態素解析に必要な大規模単語辞書の作成拡充・登録速度,後者には検索精度・索引サイズの問題がある.本論文では,両者の利点を組み合わせたハイブリッド方式を提案する.ハイブリッド方式では,索引にはn?gram単位の文字成分表を採用することで登録の高速化と索引の小型化を実現し,文書スコア計算には簡易形態素解析を利用した単語単位の手法を採用することで,高い検索精度を実現するとともに辞書管理の手間を省いた.検索システム評価用のベンチマークBMIR?J1を用いた評価により,本方式の有効性が確認できた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Ranking retrieval methods that rank documents in order of their relevance to a retrieval request are known to be effective.To implement ranking retrieval for Japanese documents without obvious word separator between words,there are two methods;word-bases and n-gram-based.However,the word-based method has problems such as troublesome maintenance of the dictionary,and slow registration speed.The n-gram-based method has problems such as low retrieval effectiveness and large index.This paper proposes an efficient ranking retrieval method that combines both methods.As an n-gram-based signature file is used for index,our method achieves fast registration and small index.Although word-based ranking is adopted for higher retrieval effectiveness,it is free from the dictionary maintenance problem because a retrieval request is morphologically analyzed in a statistical way.We evaluated the proposed hybrid method using BMIR-J1 benchmark,and found that it was quite effective. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 38, 号 11, p. 2286-2297, 発行日 1997-11-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |