WEKO3
アイテム
共感的対話におけるマルチモーダル感情認識:音声とテキストを用いた統合的アプローチ
https://ipsj.ixsq.nii.ac.jp/records/2006884
https://ipsj.ixsq.nii.ac.jp/records/2006884ef26a224-d6a3-43a3-b7e8-61f96497bbb6
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2028年1月28日からダウンロード可能です。
|
Copyright (c) 2026 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, CDS:会員:¥0, DLIB:会員:¥0 | ||
| Item type | Trans(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2026-01-28 | |||||||||
| タイトル | ||||||||||
| 言語 | ja | |||||||||
| タイトル | 共感的対話におけるマルチモーダル感情認識:音声とテキストを用いた統合的アプローチ | |||||||||
| タイトル | ||||||||||
| 言語 | en | |||||||||
| タイトル | Multimodal Emotion Recognition in Empathetic Dialogue: An Integrated Approach Using Speech and Text | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| キーワード | ||||||||||
| 主題Scheme | Other | |||||||||
| 主題 | [コンシューマ・システム論文] 共感性対話,感情認識,マルチモーダル | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||||
| 資源タイプ | journal article | |||||||||
| 著者所属 | ||||||||||
| 三重大学 | ||||||||||
| 著者所属 | ||||||||||
| 三重大学 | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Mie University | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Mie University | ||||||||||
| 著者名 |
平野,悠人
× 平野,悠人
× 森本,尚之
|
|||||||||
| 著者名(英) |
Yuto Hirano
× Yuto Hirano
× Naoyuki Morimoto
|
|||||||||
| 論文抄録 | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | 近年のコンピュータ性能とAI・機械学習技術の進展により,人間と高度に対話可能なAIシステムの研究が進んでいる.特に医療や教育など感情に配慮した対話では,相手の感情を理解し,共感的応答を生成する能力が重要である.本研究では,日本語共感対話データセットを用いて,音声・テキスト各モーダルの特徴を活かした感情認識モデルを構築・比較し,さらにそれらを統合したマルチモーダルモデルを提案する.各モデルの比較により,得意とする感情の傾向が異なることを確認し,統合によって分類性能が向上することを示した.また,実環境を想定し,音声からのテキスト文字起こしや特徴量抽出を行うエッジデバイスを実装し,感情認識IoTシステムを構築した.さらに,テキスト中の記号情報が感情推定において重要であることを示した. | |||||||||
| 論文抄録(英) | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | Recent advancements in computational power and AI/machine learning technologies have accelerated research into AI systems capable of engaging in sophisticated interactions with humans. In emotionally sensitive domains such as healthcare and education, it is crucial for AI to understand the emotions of the other party and generate empathetic responses. In this study, we construct and compare emotion recognition models that leverage features from speech and text modalities using a Japanese empathetic dialogue dataset, and further propose a multimodal model that integrates both. The comparison revealed that each modality tends to perform better for different emotional categories, and that integration improves overall classification performance. Furthermore, assuming real-world applications, we implemented an edge device capable of transcribing speech and extracting features, thereby constructing an emotion recognition IoT system. In addition, we demonstrated that symbolic information in text contributes significantly to emotion estimation. | |||||||||
| 書誌レコードID | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AA12628043 | |||||||||
| 書誌情報 |
情報処理学会論文誌コンシューマ・デバイス&システム(CDS) 巻 16, 号 1, p. 13-22, 発行日 2026-01-28 |
|||||||||
| ISSN | ||||||||||
| 収録物識別子タイプ | ISSN | |||||||||
| 収録物識別子 | 2186-5728 | |||||||||
| 出版者 | ||||||||||
| 言語 | ja | |||||||||
| 出版者 | 情報処理学会 | |||||||||