WEKO3
-
RootNode
アイテム
音響モデル学習のための相対エントロピーを用いた学習文選択
https://ipsj.ixsq.nii.ac.jp/records/72649
https://ipsj.ixsq.nii.ac.jp/records/726490720b6b9-3144-438c-93f2-4b32a9cb36b6
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2011 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2011-01-28 | |||||||
タイトル | ||||||||
タイトル | 音響モデル学習のための相対エントロピーを用いた学習文選択 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A relative entropy based data selection approach for acoustic model training | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 音響モデル | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Tokyo Institute of Technology | ||||||||
著者名 |
村上, 博子
篠田, 浩一
古井, 貞熙
× 村上, 博子 篠田, 浩一 古井, 貞熙
|
|||||||
著者名(英) |
Hiroko, Murakami
Koichi, Shinoda
Sadaoki, Furui
× Hiroko, Murakami Koichi, Shinoda Sadaoki, Furui
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 大語彙連続音声認識器の音響モデル学習には大規模な音声データが必要となるが,その構築にかかるコストは大きい.本稿では,学習文を選択することにより,従来より少ない学習文数で同等程度の認識性能をもつ音響モデルを学習する手法を提案する.まず,少量の発話データを用いて学習した音響モデルで音素認識を行い,認識単位の誤認識個数の分布を得る.そして,その分布と文内に出現する認識単位の累積頻度分布が近い文集合を文候補から選択する.分布間距離として相対エントロピーを用いる.そして,選択済みの学習文を用いて再度音響モデルを学習し,認識単位を切り替えて再度選択を行う.相対エントロピーの計算において近似を用いることで,計算時間を削減する.提案手法を,教師付き学習と半教師付き学習の両方の条件で,日本語話し言葉コーパスの152時間の音声データを用いて評価した.教師付き学習では,ランダムな学習文選択より顕著に良い結果を得た.提案手法は,全学習データを用いたときの単語正解精度74.7%に,その半分の学習データで到達した.半教師付き学習では高い効果を得られなかった. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We propose a training data selection method for large vocabulary continuous speech recognition. First, we prepare a large text corpus as a sentence set for training, and obtain phone occurence distribution for each sentence. Second, we calculate phone error distribution from phone recognition result using an initial acoustic model. Then we select sentences whose accumulated phone occurrence distribution is close to the phone error distribution. Our method was evaluated by using 152-hour speech data in the Corpus of Spontaneous Japanese. It was evaluated in situations of supervised training and semi-supervised training. In supervised training, it proved to be significantly better than random selection. It required only 76h of speech data to achieve word accuracy of 74.7%, while standard training (i.e., random selection) required 152h of data to achieve the same rate. It was not significantly effective in semi-supervised training. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告 音声言語情報処理(SLP) 巻 2011-SLP-85, 号 3, p. 1-6, 発行日 2011-01-28 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |