Item type |
SIG Technical Reports(1) |
公開日 |
2019-11-29 |
タイトル |
|
|
タイトル |
発話感情認識における音素事後確率を利用した表現学習とデータ拡張の評価\n |
タイトル |
|
|
言語 |
en |
|
タイトル |
An evaluation of representation learning using phoneme posteriorgrams and data augmentation in speech emotion recognition |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
セッション2:多様な音声言語処理 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
名古屋大学 |
著者所属 |
|
|
|
名古屋大学/日本電信電話株式会社メディアインテリジェンス研究所 |
著者所属 |
|
|
|
名古屋大学 |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Unversity |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Unversity / NTT Corporation, NTT Media Intelligence Laboratories |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Unversity |
著者名 |
岡田, 慎太郎
安藤, 厚志
戸田, 智基
|
著者名(英) |
Shintaro, Okada
Atsushi, Ando
Tomoki, Toda
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,発話感情認識の精度向上に向けて,表現学習およびデータ拡張に基づく感情認識特徴量抽出法を提案する.表現学習に基づく従来法では,大量の感情ラベル無し音声を用いた教師なし学習により,音声特徴量を再構成する潜在特徴を抽出した後に,少量の感情ラベル付き音声を用いて感情分類モデルの学習を行う.少量の感情ラベル付き音声で学習する場合と比較し,未知な音声に対してより頑健なモデルが構築できると期待されるが,潜在特徴には音声の感情因子のみでなく音韻因子や話者因子なども混入すると考えられるため,感情認識に特化した潜在特徴が得られない可能性がある.この課題を解決するため,本稿では,潜在特徴から音韻因子と話者因子の影響を低減する手法を提案する.提案手法では,補助情報として音韻情報を捉える音素事後確率系列を与える表現学習を行い,音韻因子の影響を極力取り除いた潜在特徴を獲得する.さらに,教師あり学習で用いる感情ラベル付き音声に対して,疑似的に話者性を変換する音声変換処理を適用してデータ拡張を行い,話者因子の影響を低減するための手がかりを増強する.実験的評価の結果から,音韻因子の影響を低減する表現学習法は,従来手法に比べて正解精度が向上することを示す. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This paper presents a new speech emotion recognition method based on representation learning and data augmentation. To improve the robustness against unseen speech, the conventional representation learning-based emotion recognition method utilizes a latent variable extracted by an unsupervisedly-learned speech reconstruction model to train an emotion recognizer using a limited amount of supervised data. However, the latent variable is expected to include not only an informative factor for emotion recognition but also less informative factors, such as phonetic and speaker information. The proposed method alleviates the effects of these less informative factors on the latent variable. To reduce the effects of a phonetic factor, phonetic posteriorgram (PPG) is provided as an auxiliary input of the reconstruction model in representation learning. Moreover, the effects of a speaker factor is mitigated by data augmentation to generate utterances with various speaker characteristics by using a speech morphing technique. Experimental results show that the proposed representation learning method using PPG outperforms the conventional method. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2019-SLP-130,
号 18,
p. 1-6,
発行日 2019-11-29
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |