WEKO3
アイテム
長い日本語表現の高速類似検索手法
https://ipsj.ixsq.nii.ac.jp/records/40649
https://ipsj.ixsq.nii.ac.jp/records/40649c00e5baa-c135-495e-9fb1-9277b9cb4336
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1997 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1997-09-11 | |||||||
タイトル | ||||||||
タイトル | 長い日本語表現の高速類似検索手法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | An efficient Way of Gauging Similarity between Long Japanese Expressions | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
NHK放送技術研究所(現在ATR音声翻訳通信研究所) | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NHK Science and Technical Research Labs. (presently with ATR) | ||||||||
著者名 |
田中, 英輝
× 田中, 英輝
|
|||||||
著者名(英) |
Hideki, Tanaka
× Hideki, Tanaka
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 著者らは用例提示型日英翻訳支援システムを開発している.この中にはユーザが入力する日本語表現の類似表現を検索し,これを含む日本語文と英訳を提示する機能がある.著者らの日本語データベースの文は平均長88.9文字と長い.このような長文を対象に日本語表現の類似検索を行う場合,従来のキーワードを使ったBoolean検索は適切でない.なぜならデータベースの一文中に同一キーワードがいくつも出現するため雑音を検索しやすいからである.特に入力が長いとこちらにも同一キーワードが出現して問題となる.これに対し著者らは入力キーワードの語順とその間隔を考慮した検索手法を提案する.これは構文解析を行わず近似的に構文を考慮する手法である.本稿では () 提案手法,() Boolean検索,() キーワードの語順を考慮する手法を考察して実験的に比較する.そして提案手法の検索結果の適合性が最も高いことを示す.さらに本手法が結果の提示手法としても優れていることを示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We are developing a J-E news article browser for translators. The system accepts a Japanese expression as an input, and then targeting all past Japanese articles it searches for expressions similar to the one input. Finally English sentences corresponding to those Japanese sentences that include found expressions are displayed simultaneously with the Japanese. The Boolean retrieval with keywords has been used for this kind of similar expression search since it runs fast. However this approach is not appropriate for our task. The Japanese sentence in our database is long whose average length reaches 88.9 Japanese characters. Then Boolean method captures many spurious sentences since such a long sentence quite often includes a same keyword several times. We propose a retrieval method which takes the order of keywords and their positions into account. This method can approximate the syntactical similarity between expressions without parsing them. We compare the proposed method with the Boolean method and the Boolean method solely with keyword order. We report that our method showed the best precision among the three. We also point out our method's superiority as a way to present the retrieval result. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10114171 | |||||||
書誌情報 |
情報処理学会研究報告情報学基礎(FI) 巻 1997, 号 86(1997-FI-047), p. 9-14, 発行日 1997-09-11 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |