WEKO3
アイテム
英音素変換を用いたカタカナ異表記の自動生成
https://ipsj.ixsq.nii.ac.jp/records/47784
https://ipsj.ixsq.nii.ac.jp/records/47784119444f0-b952-4c3e-b74e-458092fbc89a
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-09-25 | |||||||
タイトル | ||||||||
タイトル | 英音素変換を用いたカタカナ異表記の自動生成 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Automatic Katakana Variants Generation via English Phonemes | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
神戸大学大学院自然科学研究科 | ||||||||
著者所属 | ||||||||
神戸大学自然科系先端融合研究環 | ||||||||
著者所属 | ||||||||
神戸大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Science and Technology, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Organization of Advanced Science and Technology, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Kobe University | ||||||||
著者名 |
服部, 弘幸
× 服部, 弘幸
|
|||||||
著者名(英) |
Hiroyuki, Hattori
× Hiroyuki, Hattori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 情報検索における問題の一つに,文字表記の揺れ(異表記)があげられる.例えば,「ロサンゼルス」は「ロスアンゼルス」や「ロサンジェルス」のようにも表記可能であるため,このうち任意の表記が検索語として与えられた場合,情報検索システムは他の表記も考慮することが望ましい.特に,日本語においては上記のようなカタカナ異表記が多く存在しており,これに対処するために様々な研究が行われている.しかし,これらの研究では異表記の生成に限られたコーパスを用いているため,データの過疎性に起因する問題が生じやすい.そこで本論文では,原言語の音韻がカタカナ表記に関係している点に着目し,英語由来のカタカナ語を確率的に原言語音素列に変換,さらにその音素列をカタカナ語に逆変換することで複数のカタカナ異表記を自動生成する手法を提案する.また,NTCIR-3 の Web 検索テストコレクションを用いた評価実験について報告する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In information retrieval and other text processing applications, there has been a problem concerned with variant notations. For example, "Los Angeles'' can be written as "rosuanjerusu,'' "rosanzerusu,'' or "rosuanzerusu'' in Japanese. Thus, it would be desirable that a search system considers all the notations given any of them as a query. Although, there has been much research conducted for dealing with the problem, the previous work typically relied on the katakana rewriting rules derived from Japanese corpora or search engine logs, which apt to be suffered from the data sparseness problem. This paper proposes---based on our observation that a number of katakana variants are influenced by the pronunciation in the source language---a method to automatically generate katakana variants by back-transliterating a katakana word. The proposed method is evaluated on the NTCIR-3 Web retrieval test collection. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
情報処理学会研究報告自然言語処理(NL) 巻 2007, 号 94(2007-NL-181), p. 59-64, 発行日 2007-09-25 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |