DPGMMと敵対的学習に基づく話者の違いに頑健な特徴抽出とゼロリソース音声認識での評価

2024-07-27T09:06:03Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmh

oai:ipsj.ixsq.nii.ac.jp:001980472024-03-29T05:26:34Z01164:05159:09712:09859

DPGMMと敵対的学習に基づく話者の違いに頑健な特徴抽出とゼロリソース音声認識での評価Speaker Adversarial Training of DPGMM-based Feature Extractor for Zero-Resource Languagesjpn認識1http://id.nii.ac.jp/1001/00197957/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=198047&item_no=1&attribute_id=1&file_no=1Copyright (c) 2019 by the Information Processing Society of Japan早稲田大学日本電信電話株式会社NTTコミュニケーション科学基礎研究所早稲田大学早稲田大学樋口, 陽祐俵, 直弘小林, 哲則小川, 哲司ディリクレ過程ガウス混合モデル（(）Dirichlet process Gaussian mixture model; DPGMM）により教師なしの枠組みで音韻に関する情報を取得し，敵対的マルチタスク学習により話者補正を行うことで，ゼロリソース音声認識に適した特徴表現の獲得を試みる．ゼロリソース言語は音素ラベルが付与されていないため，DPGMMの各クラスタが音素に対応すると期待する．しかし，同一の音韻であっても発話者の違いによりばらつきが生じるため，DPGMMのように音声信号のみからデータドリブンで生成されるクラスタは必ずしも音素に対応するとは限らず，話者によるクラスタが形成されている可能性もある．そこで，DPGMMのクラスタの事後確率分布を音素に関する教師としながら，話者に関する敵対的損失を出力層に導入することで，発話者の違いの影響が抑圧された音素に関する事後分布を生成するニューラルネットワークを構築することを試みる．こうして得たネットワークからフレーム単位で得られる音素事後確率ベクトルを話者の違いに頑健な特徴量として利用したところ，Zero Resource Speech Challengeデータにおいて，話者情報を効果的に抑圧し，音素に識別的な特徴抽出が行えることを確認した．AN10442647研究報告音声言語情報処理（SLP）2019-SLP-1286162019-07-122188-86632019-07-08