WEKO3
アイテム
確率的タグ付与コーパスからの言語モデル構築
https://ipsj.ixsq.nii.ac.jp/records/69506
https://ipsj.ixsq.nii.ac.jp/records/695060a225cf2-02b0-4748-a446-b2dbd9881018
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-05-20 | |||||||
タイトル | ||||||||
タイトル | 確率的タグ付与コーパスからの言語モデル構築 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Language Model Estimation from a Stochastically Tagged Corpus | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 翻訳,言語モデル,類似度計算 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
京都大学情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学情報学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyoto University, School of Informatics | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyoto University, School of Informatics | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyoto University, School of Informatics | ||||||||
著者名 |
森, 信介
× 森, 信介
|
|||||||
著者名(英) |
Shinsuke, Mori
× Shinsuke, Mori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 確率的言語モデルは、仮名漢字変換や音声認識などに広く用いられている。パラメータは、コーパスの既存のツールによる処理結果から推定される。精度の高い読み推定ツールは存在しないため、結果として、言語モデルの単位を単語 (と品詞の組) とし、仮名漢字モデルを比較的小さい読み付与済みコーパスから推定したり、単語の発音の確率を推定せずに一定値としている。これは、単語の読みの確率を文脈と独立であると仮定していることになり、この仮定に起因する精度低下がある。このような問題を解決するために、本論文では、まず、仮名漢字変換において、単語と読みの組を単位とする言語モデルを利用することを提案する。単語と読みの組を単位とする言語モデルのパラメータは、自動単語分割および自動読み推定の結果から推定される。この処理過程で発生する誤りの問題を回避するために、本論文では、確率的タグ付与を提案する。これらの提案を採用するか否かに応じて複数の仮名漢字変換器を構築し、テストコーパスにおける変換精度を比較した結果、単語と読みの組を言語モデルの単位とし、そのパラメータを確率的に単語分割し、さらに確率的読みを付与したコーパスから推定することで最も高い変換精度となることが分かった。したがって、本論文で提案する単語と読みの組を単位とする言語モデルと、確率的タグ付与コーパスの概念は有用であると結論できる。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, first we propose a language model based on pairs of word and input sequence. Then we propose the notion of a stochastically tagged corpus to cope with tag estimation errors. The experimental results we conducted using kana-kanji converters showed that our ideas, the language model based on pairs of word and input sequence and the notion of a stochastically tagged corpus, both improved the accuracy. Therefore we conclude that the language model based on pairs and the notion of a stochastically tagged corpus are effective in language modeling for the kana-kanji conversion task. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2010-NL-196, 号 2, p. 1-7, 発行日 2010-05-20 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |