WEKO3
アイテム
講演音声の音響的特徴分析と音響モデル構築方法の検討
https://ipsj.ixsq.nii.ac.jp/records/57418
https://ipsj.ixsq.nii.ac.jp/records/574184299d64c-79f7-4b19-8c87-a3bf7bb32a22
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-07-13 | |||||||
タイトル | ||||||||
タイトル | 講演音声の音響的特徴分析と音響モデル構築方法の検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Characteristics and Acoustic Modeling of Lecture Style Speech | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
ATR音声言語通信研究所 | ||||||||
著者所属 | ||||||||
ATR音声言語通信研究所 | ||||||||
著者所属 | ||||||||
ATR音声言語通信研究所/京都大学大学院情報学研究科 | ||||||||
著者所属 | ||||||||
ATR音声言語通信研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories/School of Informatics, Kyoto University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories | ||||||||
著者名 |
奥田, 浩三
× 奥田, 浩三
|
|||||||
著者名(英) |
Kozo, Okuda
× Kozo, Okuda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 自由発話の一つである講演音声の発話様式に頑健な音響モデルの構築方法について報告する.本稿ではまず,同一話者の講演音声,読み上げ音声を比較し,発話様式の違いによる音響的特徴の違いが顕著であることを明らかにする.また周波数的特徴だけでなく,発話速度の違いも認識率に大きく影響していることを示す.そこで発話速度の変動への対処として,(1)音響モデルにおける発話速度の変動のモデル化,(2)発話速度にあわせた分析窓長,フレーム周期の最適化を提案する.(1)は異なる継続時間長の音素セグメントで複数の音響モデルを構築し,同一の音素環境に割り当てることで一つの音素モデルに統合するものである.これにより,継続時間長の短い音素の出現位置を事前に知ることなく,音素継続時間長の変動を吸収することができる.また,(2)は分析窓長,フレーム周期の最適化により音響モデル学習データとの間の音素継続時間長分布のずれを修正するとともに,周波数分析における分析精度を改善するものである.これらの手法を併用することで,単語誤り率を22.2%改善することができ,さらに教師なし適応との相乗効果も確認できた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We propose an acoustic modeling method robust to the lecture style speech. We compare lecture speech with read speech spoken by the same speaker and make clear that lecture speech is different from read speech not only in spectral characteristics but also in the speaking rate. This difference of speaking rate degrades the performance of speech recognition system. To solve this problem, we propose (1)acoustic modeling method robust to the change of speaking rate, and (2)modifying the frame length and frame period. In the first method, we create a dedicated model for short phone segments, which is combined with the conventional acoustic model to compose a single acoustic model in a multi-path fashion. This model improves the recognition performance without prior knowledge of the position of fast phones. In the second method, we change the frame length and frame period to compensate the mismatch of duration distribution between training data and lecture speech data. By combining these methods, we obtain 22.2% improvement in word error rate. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2001, 号 68(2001-SLP-037), p. 73-78, 発行日 2001-07-13 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |