WEKO3
アイテム
空間分割型CL-LSIによる大規模言語横断情報検索
https://ipsj.ixsq.nii.ac.jp/records/17650
https://ipsj.ixsq.nii.ac.jp/records/17650bccad8f2-e93f-4487-81b3-afd86173eeae
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2002-03-15 | |||||||
タイトル | ||||||||
タイトル | 空間分割型CL-LSIによる大規模言語横断情報検索 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Large - scaled Cross - Language Information Retrieval Based on Segmented CL - LSI | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 研究論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
横浜国立大学大学院環境情報研究院社会環境と情報部門 | ||||||||
著者所属 | ||||||||
株式会社東芝研究開発センター知識メディアラボラトリー | ||||||||
著者所属 | ||||||||
横浜国立大学大学院工学研究科電子情報工学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Division of Social Environment and Information Studies, Graduate School of Environment and Information Sciences, Yokohama National University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Knowledge Media Laboratory, Corporate Research and Development Center, TOSHIBA Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Division of Electrical and Computer Engineering, Graduate School of Engineering,Yokohama National University | ||||||||
著者名 |
森, 辰則
× 森, 辰則
|
|||||||
著者名(英) |
Tatsunori, Mori
× Tatsunori, Mori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,Latent Semantic Indexing (LSI )方式による言語横断情報検索において問題となる,大規模な対訳コーパスの利用方法について考察する.大規模対訳コーパスを用いて単語空間を作成しようとすると,LSI の要である単語?文書頻度行列の特異値分解が記憶装置の制約で難しくなるとともに,語の訳の曖昧性が非常に大きくなるという問題がある.そこで,文書の類似度に従って,対訳コーパスを適切な複数の部分対訳コーパスに分割し,各々の単語空間を作成する手法を提案する.この方法では,検索対象の文書を,最も類似した部分対訳コーパスから構成された単語空間に配置することによって,訳語の曖昧性を減少させる.検索時には,検索質問をそれぞれの単語空間に配置し,文書ベクトルとの類似度計算を行う.このときに,単語空間ごとの未知語に対する重み付けの補正が重要であり,検索精度が10%?20%程度向上することを示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper,we report the utilization of a large-scaled bilingual corpus in Cross-Language Latent Semantic Indexing (CL-LSI).When we construct one monolithic word space with a large-scaled corpus,we face the problems such as the increase of ambiguity in the translation of words,the diffculty in the Singular Value Decomposition,which is the essential process in LSI.In order to cope with the problems,we introduce the method in which the large bilingual corpus is divided into smaller sub-corpora according to the similarities among documents. Each of sub-corpora yields one word sub-space.By placing each document in one of the word sub-spaces,which is the most similar sub-corpus to the document,the ambiguity of translation is expected to be decreased.In the retrieval of documents,queries are placed in all of word sub-spaces,and similarities between the queries and the documents are calculated.We show that the adjustment in the similarity calculation for unknown words is very helpful to increase the effectiveness in retrieval. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11464847 | |||||||
書誌情報 |
情報処理学会論文誌データベース(TOD) 巻 43, 号 SIG02(TOD13), p. 27-36, 発行日 2002-03-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7799 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |