@article{oai:ipsj.ixsq.nii.ac.jp:00102188, author = {平山, 直樹 and 吉野, 幸一郎 and 糸山, 克寿 and 森, 信介 and 奥乃, 博 and Naoki, Hirayama and Koichiro, Yoshino and Katsutoshi, Itoyama and Shinsuke, Mori and Hiroshi, G.Okuno}, issue = {7}, journal = {情報処理学会論文誌}, month = {Jul}, note = {本論文では,様々な方言の混合に対応する音声認識システムを構築する.まず,単一方言音声認識の言語モデルを,大規模共通語言語コーパスから擬似生成した方言言語コーパスで学習する.擬似生成には,共通語-方言対訳コーパスからWFST(重み付き有限状態トランスデューサ)によって学習されたルールを用いる.次に,構築された各方言言語モデルを混合し,発話ごとに最適な混合比を推定しながら認識を行う.これは,実際に話される方言が純粋な単一方言ではなく,人の移動やテレビ,ラジオなどの放送の影響を受けた様々な方言の混合であると考えられるからである.この推定には,音声認識用言語モデルにおける対数尤度の値を用いる.実験により,方言音声認識用言語モデルを用いて方言音声の認識精度が向上することを確認した.また,対数尤度と音声認識精度に強い相関があること,対数尤度を最大化する混合比を発話ごとに選択することで,固定混合比の場合と比較して音声認識精度が向上することを確認した., This paper designs and implements an automatic speech recognition (ASR) system that accepts a mixture of various kinds of dialects.The language model for a particular dialect is trained on a dialect language corpus simulated from a large common language corpus.The simulation is carried out with a weighted finite-state transducer (WFST)trained on a parallel corpus of a dialect and common language.The resulting system recognizes dialect utterances with a mixture of dialect language models by estimating the optimal dialect mixing proportion for each utterance.Since actually-spoken dialect is not a purely single dialectbut a mixture of various dialects,influenced by communication in daily lives and broadcasting such as television and radio,estimating optimal dialect mixing proportion, that is,what maximizes the value of log-likelihood forthe input utterance, is critical in ASR.Experiments showed that recognition accuracy improves by usingthe dialect language model,that log-likelihood and recognition accuracyare highly correlated, and that recognition accuracy improvesby choosing the dialect mixing proportion that maximizes log-likelihoodfor each utterance,compared to a fixed dialect mixing proportion.}, pages = {1681--1694}, title = {擬似生成した複数方言言語モデル混合による混合方言音声認識}, volume = {55}, year = {2014} }