| Item type |
SIG Technical Reports(1) |
| 公開日 |
2017-07-20 |
| タイトル |
|
|
タイトル |
End-to-EndモデルによるSocial Signals検出および音声認識との統合 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声対話 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者名 |
稲熊, 寛文
井上, 昂治
三村, 正人
河原, 達也
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
人間同士の対話では,言語的情報だけでなく,笑いやフィラー,相槌,言い淀みなどの Social Signals と呼ばれる非言語的振る舞いがしばしば観測される.Social Signals を検出することは話者の感情状態やエンゲージメントなどを推定するのに有効であり,対話システムがより人間らしく振る舞うための情報源にもなり得る.著者らは,学習データ中の正解ラベル系列の区間分割が不要な End-to-End モデルである Connectionist Temporal Classification (CTC) を損失関数とする BLSTM-CTC を用いることで,音声対話中に表出する Social Signal の頑健で直接的な検出を行っている.本稿では,従来の文字単位の End-to-End 音声認識と Social Signals の検出を同時に行い,これらが統一的な枠組みで扱えることを示す.さらに,通常の発話特別して Social Signals を検出し,それらを除去することによって,大規模コーパスにおいて認識精度が改善することを確認する. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2017-SLP-117,
号 7,
p. 1-6,
発行日 2017-07-20
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |