@techreport{oai:ipsj.ixsq.nii.ac.jp:00226332, author = {永瀬, 亮太郎 and 福森, 隆寛 and 山下, 洋一 and Ryotaro, Nagase and Takahiro, Fukumori and Yoichi, Yamashita}, issue = {28}, month = {Jun}, note = {近年,深層学習を利用し音声の感情を適切に分類する音声感情認識の研究が盛んに取り組まれている.本研究では特に系列化された感情ラベル(感情ラベル列)の推論による音声感情認識に取り組む.感情ラベル列の予測によって,時間と共に変化する発話内の感情状態を正確に認識できるようになることが期待される.従来研究では有声音素の数に基づいて正解の感情ラベル列を用意していたが,同じ感情であっても音韻によって異なる音響的な差異は考慮されていなかった.故に,本研究では母音や有声,無声子音などを示す音素クラス属性を考慮した感情ラベル列推定に基づく音声感情認識を提案した.結果,提案手法によって認識率が改善することがわかった., Recently, many researchers have tackled speech emotion recognition (SER), which predicts emotion conveyed by speech. In this paper, we focus on SER based on emotional label sequence estimation. We expect that emotion label sequence estimation enables accurate recognition of emotional states in the utterances that change over time. Previous studies have prepared emotional label sequences based on the number of voiced phonemes. However, conventional methods are not considered acoustic differences between phonemes for the same emotion. Therefore, we propose SER based on emotional label sequence estimation considering phoneme class attributes, including vowels, voiced consonants, unvoiced consonants, etc. As a result, we found that the performance was improved by the proposed method.}, title = {音素クラス属性を考慮した感情ラベル列の推定による音声感情認識}, year = {2023} }