@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00132398, book = {全国大会講演論文集}, issue = {データベースとメディア}, month = {Sep}, note = {単語区切りが明瞭でない日本語文書の全文検索において, 素朴な単語索引では, 辞書の不備/単語分割(形態素解析)精度の限界/未知語の存在等の要因により, 任意の文字列については検索漏れが避けられないことから, n-gram索引を用いた全文検索方式の開発が進められている。 n-gram索引は, 文章中に出現するn-gram (nは可変)を出現位置と共に記録したものであり, 検索時には, 検索文字列を構成する各n-gramに対応した出現位置の連接演算により, 任意文字列に対する全文検索を漏れなく高速に行う。しかし, n-gram索引方式には, 以下のような課題がある。(1) 索引量/検索速度: n-gram索引方式では, 通常原文書の数倍の索引容量を必要とする。また, 検索文字列長に依存して必要な連接演算が増えるため, 高頻出のn-gramを多数含むような検索文字列に対しては, 高速化が困難である。(2) 検索ノイズの除去: 任意文字列による全文検索では, 一般に検索ノイズが膨大になる。例えば, 「グラフ」という文字列で, 「グラファイト」を検索してしまう。 n-gram索引方式は, 単語という概念を持たないので, この種のノイズは除去できない。(3) 文章ランキング等, 高度な検索機能: 検索結果を利用者の検索ニーズに関連する順に整列する(ランキング)機能を持つ検索システムは, 初期のSIRE, SMART等の実験システムの段階から, 90年代に入って実用化局面を迎え, 欧米文書に対しては既にいくつかの商用検索エンジンが開発されている。通常, 関連度は, 文書中の単語頻度情報を基に算出されるが, n-gram索引方式では, 正確な単語頻度が求まらないので, 精密な評価を行うことが困難である。さらに, 適合性フィードバックなどの高度な検索機能は別途実現しなくてはならない。筆者らは, 日本語文書に対しても, 単語を単位とした索引(完全延長極大索引方式, 以下, 本稿では極大単語索引方式と呼ぶ)を構成することで, コンパクトな索引で, 任意文字列に対して漏れのない高速な全文検索が行えることを示した。極大単語索引方式は, 従来の単語索引方式とn-gram索引方式の長所を兼ね備えたものであり, さらに, 上記課題を解決することが可能である。今回我々は, その方式を拡張して文字列検索の高速化・索引作成時間の短縮・索引量の軽減を行い, 更に単語頻度情報を用いた文書ランキング等の高度検索機能を実現した知的検索ソフトウエアMEISTERを開発した。本稿では, 極大単語索引方式の原理と特長, およびMEISTERの構成と諸機能について述べる。}, pages = {89--90}, publisher = {情報処理学会}, title = {極大単語索引を用いた知的検索ソフトウェアMEISTER : 概要}, volume = {第55回}, year = {1997} }