WEKO3
アイテム
十分統計量を用いた教師なし話者適応および環境適応
https://ipsj.ixsq.nii.ac.jp/records/11544
https://ipsj.ixsq.nii.ac.jp/records/1154419b193ee-9e54-4c55-a0e3-80cd96eb1bdb
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2002-07-15 | |||||||
タイトル | ||||||||
タイトル | 十分統計量を用いた教師なし話者適応および環境適応 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Unsupervised Speaker and Noise Adaptation Based on HMM Sufficient Statistics | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 特集:音声言語情報処理とその応用 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 音声特徴抽出・正規化・適応・頑健化 | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学/現在,三洋電機株式会社 | ||||||||
著者所属 | ||||||||
松下電器産業株式会社 | ||||||||
著者所属 | ||||||||
松下電工株式会社 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology/Presently with SANYO Electric Co., Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Matsushita Electric Industrial Co., Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Matsushita Electric Works, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者名 |
松浪, 加奈子
芳澤伸一
馬場, 朗
李晃伸
猿渡, 洋
鹿野, 清宏
× 松浪, 加奈子 芳澤伸一 馬場, 朗 李晃伸 猿渡, 洋 鹿野, 清宏
|
|||||||
著者名(英) |
Kanako, Matsunami
Shinichi, Yoshizawa
Akira, Baba
Akinobu, Lee
Hiroshi, Saruwatari
Kiyohiro, Shikano
× Kanako, Matsunami Shinichi, Yoshizawa Akira, Baba Akinobu, Lee Hiroshi, Saruwatari Kiyohiro, Shikano
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 音声認識のための音韻モデル適応においては,すべての出現しうる雑音環境や話者に対してモデルをあらかじめ用意するのは困難であり,高精度な話者,環境適応技術が要求される.本研究では,対象話者の任意の1発声文と雑音データのみを入力として環境適応および話者適応を行う音韻モデルの適応アルゴリズムを提案する.本手法は3つのステップから成り立つ.(1)雑音を音声データベースに重畳し,全話者の十分統計量を計算する.(2)任意の1発声文に対してGMM話者モデルを用いて音声データベースから音響的特徴が近い話者集合を選択する.(3)選択された話者集合の(1)の十分統計量を用いて話者適応および環境適応した音韻モデルを構築する.これにより任意の話者の環境発声に対する教師なし適応が可能である.認識実験より,提案法により適応した音韻モデルは,雑音を重畳した音声データベースからEMアルゴリズムを用いて作成した音韻モデルよりも高い認識精度を得られることが示された.さらにこのようにして適応したモデルを初期値として,さらにMLLRによる適応を行った場合,単純にMLLRを行う場合よりも高精度な適応が行えることを示す.また,雑音レベルの変動の認識率への影響についても述べる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In order to realize a robust and accurate speech recognition invarious real environments, noise and speaker adaptation techniques areimportant, since covering all the possible noises and speakers in astatic model is essentially impossible. In this paper, we propose anefficient unsupervised noise and speaker adaptation method based onHMM sufficient statistics. Our method consists of three steps. (1)Noise data of the target environment is added to the training speechdatabase to calculate noise-added HMM sufficient statistics. (2)Given a target speaker, the speakers that are acoustically close tothe target speaker are selected from the database, using speaker GMM.(3) Then, the resulting adaptation model is obtained by constructingmodels from the HMM sufficient statistics of the selected speakers.Recognition experiments show that our adapted models achieve higheraccuracy than environment-matched models trained by the E-M algorithm,with only one utterance and environment noise data. Furthermore, weexamine the robustness of the adapted models in different SNRconditions. Integration with supervised MLLR method is alsoinvestigated. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 43, 号 7, p. 2038-2045, 発行日 2002-07-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |