@article{oai:ipsj.ixsq.nii.ac.jp:00010142,
 author = {大河雄一 and 伊藤, 彰則 and 鈴木, 基之 and 牧野, 正三 and Yuichi, Ohkawa and Akinori, Ito and Motoyuki, Suzuki and Shozo, Makino},
 issue = {12},
 journal = {情報処理学会論文誌},
 month = {Dec},
 note = {本論文では,音声認識により生じる認識誤りのうち,持続時間が本来の長さと極端に異なるものを抑制する手段として,音素持続時間のモデルを用いる方法の検討を行った.そして,発話速度や言語的要因によってもたらされる持続時間の変動を考慮した,音素持続時間モデル化法と,その音声認識への適用手法の提案を行う.従来,音声合成の分野を中心として様々な音素持続時間の生成法が提案されているが,音声認識を目的として,発話速度の影響と音素の文中での位置や品詞などの言語的特徴の影響の双方を考慮に入れた音素持続時間のモデル化法や認識手法はなかった.本論文では,言語的特徴などを質問として用いた決定木により求められるクラスを単位とし,音素の持続時間と発話速度と相関の高い局所平均母音長の2 次元正規分布として持続時間のモデル化を行うことで,様々な要因により変化する音素持続時間を高精度に推定を行う方法を提案する.また得られた持続時間の分布を,音声認識結果のN-best のリスコアリングに利用することで,認識率の改善が得られることを述べる., In this paper, we proposed a method of phoneme duration modeling for speech recognition. There was no usual method of duration modeling for speech recognition considering change by both speaking-rate and linguistic feature (phoneme location in sentence, part-of-speech et al.) Therefore, we modeled influence of speaking-rate by 2 dimension normal distribution of phoneme duration and local average of vowel duration. Each normal distribution is determined by tree based clustering with various question which include linguistic feature. We acquired 4.7% reduction of phoneme error rate by re-scoring of N-best hypothesis with proposed duration model.},
 pages = {3380--3391},
 title = {発話速度と言語的特徴による変動を考慮した音素持続時間モデルを用いた音声認識},
 volume = {47},
 year = {2006}
}