WEKO3
アイテム
英語音韻を考慮した情報検索のための多様なカタカナ異表記生成
https://ipsj.ixsq.nii.ac.jp/records/60685
https://ipsj.ixsq.nii.ac.jp/records/6068573d0dfc6-8109-407c-8cff-abe4d7c3730f
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-02-20 | |||||||
タイトル | ||||||||
タイトル | 英語音韻を考慮した情報検索のための多様なカタカナ異表記生成 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Generating Diverse Katakana Variants via Backward-Forward Transliteration for Information Retrieval | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | オリジナル論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
グーグル株式会社 | ||||||||
著者所属 | ||||||||
神戸大学自然科学系先端融合研究環 | ||||||||
著者所属 | ||||||||
神戸大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Google, Inc. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Organization of Advanced Science and Technology, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Kobe University | ||||||||
著者名 |
服部, 弘幸
× 服部, 弘幸
|
|||||||
著者名(英) |
Hiroyuki, Hattori
× Hiroyuki, Hattori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 日本語,特にカタカナ語では,異なる表記を持ちながら同じ対象を指す異表記同義語が多く存在する.たとえば,「ロサンジェルス」 は 「ロサンゼルス」, 「ロスアンジェルス」, 「ロスアンゼルス」 のように表記することもできる.このような表記の多様性は,文字を単なる記号として扱う処理,たとえば情報検索などにおいて処理精度を低下させる要因の 1 つとなっている.具体的には,検索語として 「ロサンジェルス」 が与えられたとき,通常の情報検索では異表記のみを含む文書はけっして検索されることがない.この問題への対処法は,表記の統一,異表記の生成のいずれかに大別でき,後者の異表記生成には,これまでカタカナ書き換え規則に基づく手法が提案されている.本研究では,2 言語間の音素の不一致によって前述のようなカタカナ異表記が生じている場合がある点に注目し,表層的なカタカナ書き換え規則ではなく,より根源的な音素レベルでの異表記生成を試みる.提案手法では,従来研究の音素間対応を基に確率的音素変換モデルを構築し,カタカナ語から英語への逆翻字,英語からカタカナ語への翻字を連続的に行うことで,従来の表層的な特徴を利用した書き換え規則では得られない多様なカタカナ異表記を生成する.提案手法の妥当性を検証するため,生成された異表記に関して人手で評価を行う.さらに,生成された異表記を検索質問置換に利用し,情報検索における提案手法の有効性を示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In Japanese, it is quite common for the same word to be written in multiple ways. This is especially true for katakana words which are typically used for transliterating foreign languages. For example, "Los Angeles" can be written in katakana as "ロサンジェルス(rosanjerusu)","ロサンゼルス(rosanzerusu)","ロスアンジェルス(rosuanjerusu)", "ロスアンゼルス(rosuanzerusu)", all considered legitimate. This ambiguity becomes a critical problem for automatic processing such as information retrieval. To tackle this problem, we propose a simple but effective approach for generating katakana variants for a given katakana word based on phonemic representation of the original language for a given word. The proposed approach is first evaluated through a manual assessment of the variants it generates. It is also shown that the approach is beneficial for information retrieval when applied for query replacement, retrieving a large number of potentially relevant documents. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11464803 | |||||||
書誌情報 |
情報処理学会論文誌数理モデル化と応用(TOM) 巻 2, 号 1, p. 145-155, 発行日 2009-02-20 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7780 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |