2024-03-29T21:49:46Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000401892024-03-29T05:26:34Z01164:03500:03515:03518
テキスト構文構造類似度を用いた類似文検索手法New methods to retrieve sentences based on syntactic similarityjpnhttp://id.nii.ac.jp/1001/00040189/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=40189&item_no=1&attribute_id=1&file_no=1Copyright (c) 2005 by the Information Processing Society of Japan東京工業大学 大学院情報理工学研究科 計算工学専攻東京工業大学 大学院情報理工学研究科 計算工学専攻東京工業大学 大学院情報理工学研究科 計算工学専攻中京大学 情報科学部 認知科学科市川, 宙橋本, 泰一徳永, 健伸田中, 穂積本論文では,構文木付きコーパスから,構文的に類似した文を検索する手法を提案した.構文的類似度の計算手法としてはTree Kernel (Collins)が提案されている.しかし,Tree Kernelの類似度計算は時間を要するため,これを類似文検索に応用すると,検索速度が問題になる.検索時間短縮のためには,予め検索対象のインデックスを作成しておくのが一般的だが,Tree Kernelではその性質上,検索対象のインデックス化が困難である.そこで,Tree Kernelを近似する高速な新しいアルゴリズムとしてTree OverlappingとSubpath Setを提案した.これらのアルゴリズムは,Tree Kernelとは異なり,検索対象のインデックス化が可能なため,高速な検索が可能である.本論文ではTree Kernel Tree Overlapping Subpath Setの3種類のアルゴリズムについて述べ,実験結果を示し,比較した.This paper proposes a method to retrieve sentences which have a similar syntactic structure to the syntax tree of the query sentence. Tree Kernel has been proposed by Collins as a method to calculate structural similarity. However, the similarity retrieval by Tree Kernel is not practicable because Tree Kernel computation requires significant resources. A general method to shorten the retrieving time and to reduce required computation is indexing the corpora beforehand. However, in case of Tree Kernel, it is too hard to index the corpora. Therefore, we propose faster approximation algorithms: Tree Overlapping and Subpath Set. These algorithms are faster than Tree Kernel because indexing is possible. This paper describes three algorithms: Tree Kernel, Tree Overlapping and Subpath Set, and shows the result of evaluations and algorithm comparison.AN10114171情報処理学会研究報告情報学基礎(FI)200542(2005-FI-079)39462005-05-192009-06-30