2024-03-28T23:04:59Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000626682023-04-27T10:00:04Z01164:05159:05160:05697
教師なしクロスバリデーション適応法の諸条件における評価Unsupervised Cross-validation Adaptations in Various Conditionsjpn音響モデルhttp://id.nii.ac.jp/1001/00062668/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=62668&item_no=1&attribute_id=1&file_no=1Copyright (c) 2009 by the Information Processing Society of Japan久保田, 雄篠崎, 隆宏古井, 貞煕音響モデルの効率的な教師なし適応を目的として提案し話者適応においてその効果を示した教師なしクロスバリデーション適応法 1) について,さらに諸条件において評価を行なう.提案手法はこれまでに 15 分程度の音声データに対する話者適応ではその効果が示されたが,数分程度の比較的短い音声データではその効果は評価がされていなかった.また話者適応以外のケースにおける提案手法の応用についても確かめることが課題となっていた.そのため本実験では短時間の発話データを用いた話者適応,およびタスク適応へ提案手法を応用して単語誤り率や演算時間について評価を行う.結果,話者適応では短時間の適応音声に対しても提案法は従来法と比べ低い単語誤り率であり,タスク適応においても全ての実験条件において提案法が従来法を上回った.また話者適応では 20-fold 教師なし CV 適応法提案法の計算時間は従来法のおよそ 3 倍であった.Unsupervised cross-validation adaptation has previously been proposed for effective acoustic model adaptation, and has been shown to work well for speaker adaptation on voice data of around 15 minutes, but the effect on voice data of shorter duration, or the application on other adaption tasks, has not been previously evaluated. In this paper we apply this method to speaker adaptation using voice data of a few minutes and task adaptation. The results show that the word error rate of unsupervised cross-validation is smaller than that of the batch-mode baseline, both for speaker adaptation using voice data of every length, as well as for task adaptation. The computing time for unsupervised 20-fold cross-validation was three times longer than baseline in the case of speaker adaptation.AN10442647研究報告音声言語情報処理(SLP)2009-SLP-777162009-07-102009-08-19