WEKO3
アイテム
⊿-logF0 に基づく韻律特徴量を用いた耐雑音性の高い声調認識
https://ipsj.ixsq.nii.ac.jp/records/56644
https://ipsj.ixsq.nii.ac.jp/records/56644076d0e3c-87fd-498a-b38e-bf3ddbc27e81
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-07-11 | |||||||
タイトル | ||||||||
タイトル | ⊿-logF0 に基づく韻律特徴量を用いた耐雑音性の高い声調認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Noise-Robust Tone Recognition using ⊿-logF0 based Prosodic Feature | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東芝研究開発センター | ||||||||
著者所属 | ||||||||
東芝研究開発センター | ||||||||
著者所属 | ||||||||
東芝研究開発センター | ||||||||
著者所属 | ||||||||
東芝研究開発センター | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toshiba R&D Center | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toshiba R&D Center | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toshiba R&D Center | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toshiba R&D Center | ||||||||
著者名 |
木田, 祐介
× 木田, 祐介
|
|||||||
著者名(英) |
Yusuke, Kida
× Yusuke, Kida
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 中国語やタイ語などの声調言語では,声調を認識するために,音声の基本周波数に基づく韻律特徴量が用いられている.しかし,実環境雑音下においては,基本周波数の推定精度の劣化が,声調認識精度に悪影響を与える問題がある.また,話者やイントネーションによる基本周波数の変動を正規化する処理によって,韻律特徴抽出の実時間性が損なわれる問題もある.これらの問題を解決するため,我々は基本周波数の対数の時間変化量 (⊿-logF0) に基づく韻律特徴量に着目する.⊿-logF0 は,基本周波数やその対数に比べて話者性やイントネーションの影響を受けにくく,遅延を伴う正規化処理を行う必要がない.そのため,遅延時間の小さい韻律特徴量の抽出が可能である.さらに我々は,耐雑音性の高い ⊿-logF0 推定手法として,対数周波数軸上の周波数スペクトルのシフト量推定に基づく手法を提案する.マンダリンの認識実験の結果,提案手法により推定した ⊿-logF0 に基づく韻律特徴量が,従来の logF0 に基づく韻律特徴量に対して高い耐雑音性を示すことを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper presents a noise-robust prosodic feature based on ⊿-logF0. In conventional ASR systems of tonal languages such as Mandarin and Thai, fundamental frequency (F0) is used as a prosodic feature. However, noise-robust F0 estimation has still been a difficult task, and sufficient accuracy has not been obtained in noisy environment. Another problem is that the normalization of F0 generates delay of feature extraction. Normalization of F0 is essential because F0 is highly affected by speaker's personality and intonation. To solve these problems, we focus on ⊿-logF0 based prosodic feature. ⊿-logF0 does not need to be normalized because it is not affected by above factors. In this paper, we propose a new algorithm which estimates ⊿-logF0 directly based on shift estimation on log-scale frequency spectrum. The experimental results show that the proposed method improves the noise-robustness of Mandarin tone recognition in comparison with conventional logF0 based prosodic feature. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2008, 号 68(2008-SLP-072), p. 57-62, 発行日 2008-07-11 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |