WEKO3
アイテム
擬似生成した複数方言言語モデル混合による混合方言音声認識
https://ipsj.ixsq.nii.ac.jp/records/102188
https://ipsj.ixsq.nii.ac.jp/records/102188aa3d28da-f1f9-41c7-b014-76f11cf8e3ea
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-07-15 | |||||||
タイトル | ||||||||
タイトル | 擬似生成した複数方言言語モデル混合による混合方言音声認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Dialect-mixed Speech Recognition by Mixing Simulated Multiple Dialect Language Models | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | [一般論文] 方言音声認識,混合比推定,方言対訳コーパス | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科/京都大学学術情報メディアセンター | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University / Academic Center for Computing and Media Studies, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Informatics, Kyoto University | ||||||||
著者名 |
平山, 直樹
× 平山, 直樹
|
|||||||
著者名(英) |
Naoki, Hirayama
× Naoki, Hirayama
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では,様々な方言の混合に対応する音声認識システムを構築する.まず,単一方言音声認識の言語モデルを,大規模共通語言語コーパスから擬似生成した方言言語コーパスで学習する.擬似生成には,共通語-方言対訳コーパスからWFST(重み付き有限状態トランスデューサ)によって学習されたルールを用いる.次に,構築された各方言言語モデルを混合し,発話ごとに最適な混合比を推定しながら認識を行う.これは,実際に話される方言が純粋な単一方言ではなく,人の移動やテレビ,ラジオなどの放送の影響を受けた様々な方言の混合であると考えられるからである.この推定には,音声認識用言語モデルにおける対数尤度の値を用いる.実験により,方言音声認識用言語モデルを用いて方言音声の認識精度が向上することを確認した.また,対数尤度と音声認識精度に強い相関があること,対数尤度を最大化する混合比を発話ごとに選択することで,固定混合比の場合と比較して音声認識精度が向上することを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper designs and implements an automatic speech recognition (ASR) system that accepts a mixture of various kinds of dialects.The language model for a particular dialect is trained on a dialect language corpus simulated from a large common language corpus.The simulation is carried out with a weighted finite-state transducer (WFST)trained on a parallel corpus of a dialect and common language.The resulting system recognizes dialect utterances with a mixture of dialect language models by estimating the optimal dialect mixing proportion for each utterance.Since actually-spoken dialect is not a purely single dialectbut a mixture of various dialects,influenced by communication in daily lives and broadcasting such as television and radio,estimating optimal dialect mixing proportion, that is,what maximizes the value of log-likelihood forthe input utterance, is critical in ASR.Experiments showed that recognition accuracy improves by usingthe dialect language model,that log-likelihood and recognition accuracyare highly correlated, and that recognition accuracy improvesby choosing the dialect mixing proportion that maximizes log-likelihoodfor each utterance,compared to a fixed dialect mixing proportion. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 55, 号 7, p. 1681-1694, 発行日 2014-07-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |