2024-03-29T08:06:24Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000574182023-04-27T10:00:04Z01164:05159:05204:05207
講演音声の音響的特徴分析と音響モデル構築方法の検討Characteristics and Acoustic Modeling of Lecture Style Speechjpnhttp://id.nii.ac.jp/1001/00057418/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=57418&item_no=1&attribute_id=1&file_no=1Copyright (c) 2001 by the Information Processing Society of JapanATR音声言語通信研究所ATR音声言語通信研究所ATR音声言語通信研究所/京都大学大学院情報学研究科ATR音声言語通信研究所奥田, 浩三中嶋, 秀治河原, 達也中村, 哲自由発話の一つである講演音声の発話様式に頑健な音響モデルの構築方法について報告する.本稿ではまず,同一話者の講演音声,読み上げ音声を比較し,発話様式の違いによる音響的特徴の違いが顕著であることを明らかにする.また周波数的特徴だけでなく,発話速度の違いも認識率に大きく影響していることを示す.そこで発話速度の変動への対処として,(1)音響モデルにおける発話速度の変動のモデル化,(2)発話速度にあわせた分析窓長,フレーム周期の最適化を提案する.(1)は異なる継続時間長の音素セグメントで複数の音響モデルを構築し,同一の音素環境に割り当てることで一つの音素モデルに統合するものである.これにより,継続時間長の短い音素の出現位置を事前に知ることなく,音素継続時間長の変動を吸収することができる.また,(2)は分析窓長,フレーム周期の最適化により音響モデル学習データとの間の音素継続時間長分布のずれを修正するとともに,周波数分析における分析精度を改善するものである.これらの手法を併用することで,単語誤り率を22.2%改善することができ,さらに教師なし適応との相乗効果も確認できた.We propose an acoustic modeling method robust to the lecture style speech. We compare lecture speech with read speech spoken by the same speaker and make clear that lecture speech is different from read speech not only in spectral characteristics but also in the speaking rate. This difference of speaking rate degrades the performance of speech recognition system. To solve this problem, we propose (1)acoustic modeling method robust to the change of speaking rate, and (2)modifying the frame length and frame period. In the first method, we create a dedicated model for short phone segments, which is combined with the conventional acoustic model to compose a single acoustic model in a multi-path fashion. This model improves the recognition performance without prior knowledge of the position of fast phones. In the second method, we change the frame length and frame period to compensate the mismatch of duration distribution between training data and lecture speech data. By combining these methods, we obtain 22.2% improvement in word error rate.AN10442647情報処理学会研究報告音声言語情報処理(SLP)200168(2001-SLP-037)73782001-07-132009-06-30