ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(トランザクション)
  2. データベース(TOD)[電子情報通信学会データ工学研究専門委員会共同編集]
  3. Vol.43
  4. No.SIG2(TOD13)

空間分割型CL-LSIによる大規模言語横断情報検索

https://ipsj.ixsq.nii.ac.jp/records/17650
https://ipsj.ixsq.nii.ac.jp/records/17650
bccad8f2-e93f-4487-81b3-afd86173eeae
名前 / ファイル ライセンス アクション
IPSJ-TOD4302005.pdf IPSJ-TOD4302005.pdf (190.2 kB)
Copyright (c) 2002 by the Information Processing Society of Japan
オープンアクセス
Item type Trans(1)
公開日 2002-03-15
タイトル
タイトル 空間分割型CL-LSIによる大規模言語横断情報検索
タイトル
言語 en
タイトル Large - scaled Cross - Language Information Retrieval Based on Segmented CL - LSI
言語
言語 jpn
キーワード
主題Scheme Other
主題 研究論文
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者所属
横浜国立大学大学院環境情報研究院社会環境と情報部門
著者所属
株式会社東芝研究開発センター知識メディアラボラトリー
著者所属
横浜国立大学大学院工学研究科電子情報工学専攻
著者所属(英)
en
Division of Social Environment and Information Studies, Graduate School of Environment and Information Sciences, Yokohama National University
著者所属(英)
en
Knowledge Media Laboratory, Corporate Research and Development Center, TOSHIBA Corporation
著者所属(英)
en
Division of Electrical and Computer Engineering, Graduate School of Engineering,Yokohama National University
著者名 森, 辰則 國分智晴 田中, 崇

× 森, 辰則 國分智晴 田中, 崇

森, 辰則
國分智晴
田中, 崇

Search repository
著者名(英) Tatsunori, Mori Tomoharu, Kokubu Takashi, Tanaka

× Tatsunori, Mori Tomoharu, Kokubu Takashi, Tanaka

en Tatsunori, Mori
Tomoharu, Kokubu
Takashi, Tanaka

Search repository
論文抄録
内容記述タイプ Other
内容記述 本稿では,Latent Semantic Indexing (LSI )方式による言語横断情報検索において問題となる,大規模な対訳コーパスの利用方法について考察する.大規模対訳コーパスを用いて単語空間を作成しようとすると,LSI の要である単語?文書頻度行列の特異値分解が記憶装置の制約で難しくなるとともに,語の訳の曖昧性が非常に大きくなるという問題がある.そこで,文書の類似度に従って,対訳コーパスを適切な複数の部分対訳コーパスに分割し,各々の単語空間を作成する手法を提案する.この方法では,検索対象の文書を,最も類似した部分対訳コーパスから構成された単語空間に配置することによって,訳語の曖昧性を減少させる.検索時には,検索質問をそれぞれの単語空間に配置し,文書ベクトルとの類似度計算を行う.このときに,単語空間ごとの未知語に対する重み付けの補正が重要であり,検索精度が10%?20%程度向上することを示す.
論文抄録(英)
内容記述タイプ Other
内容記述 In this paper,we report the utilization of a large-scaled bilingual corpus in Cross-Language Latent Semantic Indexing (CL-LSI).When we construct one monolithic word space with a large-scaled corpus,we face the problems such as the increase of ambiguity in the translation of words,the diffculty in the Singular Value Decomposition,which is the essential process in LSI.In order to cope with the problems,we introduce the method in which the large bilingual corpus is divided into smaller sub-corpora according to the similarities among documents. Each of sub-corpora yields one word sub-space.By placing each document in one of the word sub-spaces,which is the most similar sub-corpus to the document,the ambiguity of translation is expected to be decreased.In the retrieval of documents,queries are placed in all of word sub-spaces,and similarities between the queries and the documents are calculated.We show that the adjustment in the similarity calculation for unknown words is very helpful to increase the effectiveness in retrieval.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11464847
書誌情報 情報処理学会論文誌データベース(TOD)

巻 43, 号 SIG02(TOD13), p. 27-36, 発行日 2002-03-15
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7799
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-22 23:11:53.458389
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3