WEKO3
アイテム
発話速度と言語的特徴による変動を考慮した音素持続時間モデルを用いた音声認識
https://ipsj.ixsq.nii.ac.jp/records/10142
https://ipsj.ixsq.nii.ac.jp/records/101428b882346-1e77-4b64-a900-d2b6c8a34526
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2006-12-15 | |||||||
タイトル | ||||||||
タイトル | 発話速度と言語的特徴による変動を考慮した音素持続時間モデルを用いた音声認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Phoneme Duration Model Considering Speaking-rate and Linguistic Features for Speech Recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 論文 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 音声言語 | |||||||
著者所属 | ||||||||
東北大学大学院教育情報学研究部 | ||||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Research Division, Graduate School of Educational Informatics, Tohoku University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Tohoku University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Tohoku University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Tohoku University | ||||||||
著者名 |
大河雄一
伊藤, 彰則
鈴木, 基之
牧野, 正三
× 大河雄一 伊藤, 彰則 鈴木, 基之 牧野, 正三
|
|||||||
著者名(英) |
Yuichi, Ohkawa
Akinori, Ito
Motoyuki, Suzuki
Shozo, Makino
× Yuichi, Ohkawa Akinori, Ito Motoyuki, Suzuki Shozo, Makino
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では,音声認識により生じる認識誤りのうち,持続時間が本来の長さと極端に異なるものを抑制する手段として,音素持続時間のモデルを用いる方法の検討を行った.そして,発話速度や言語的要因によってもたらされる持続時間の変動を考慮した,音素持続時間モデル化法と,その音声認識への適用手法の提案を行う.従来,音声合成の分野を中心として様々な音素持続時間の生成法が提案されているが,音声認識を目的として,発話速度の影響と音素の文中での位置や品詞などの言語的特徴の影響の双方を考慮に入れた音素持続時間のモデル化法や認識手法はなかった.本論文では,言語的特徴などを質問として用いた決定木により求められるクラスを単位とし,音素の持続時間と発話速度と相関の高い局所平均母音長の2 次元正規分布として持続時間のモデル化を行うことで,様々な要因により変化する音素持続時間を高精度に推定を行う方法を提案する.また得られた持続時間の分布を,音声認識結果のN-best のリスコアリングに利用することで,認識率の改善が得られることを述べる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we proposed a method of phoneme duration modeling for speech recognition. There was no usual method of duration modeling for speech recognition considering change by both speaking-rate and linguistic feature (phoneme location in sentence, part-of-speech et al.) Therefore, we modeled influence of speaking-rate by 2 dimension normal distribution of phoneme duration and local average of vowel duration. Each normal distribution is determined by tree based clustering with various question which include linguistic feature. We acquired 4.7% reduction of phoneme error rate by re-scoring of N-best hypothesis with proposed duration model. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 47, 号 12, p. 3380-3391, 発行日 2006-12-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |