Item type |
SIG Technical Reports(1) |
公開日 |
2017-02-10 |
タイトル |
|
|
タイトル |
LSTM-CTCによる音声対話におけるSocial Signalsの検出 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声対話 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
京都大学大学院情報学研究科 |
著者所属 |
|
|
|
京都大学大学院情報学研究科 |
著者所属 |
|
|
|
京都大学大学院情報学研究科 |
著者所属 |
|
|
|
京都大学大学院情報学研究科 |
著者名 |
稲熊, 寛文
井上, 昂治
三村, 正人
河原, 達也
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
人間同士の対話では,言語的な発話だけでなく,笑いやフィラー,相槌などの Social Signals と呼ばれる非言語のやりとりが見られる.音声対話において,Social Signals を検出することは,話者の感情やエンゲージメント,対話の場などを推定することにつながり,また対話システムがより人間らしく振る舞うための情報源になり得る.本研究では,Bidirectional LSTM-CTC モデルを用いて,人間同士の音声対話中に表出する笑いとフィラーの検出を試みる.一般的に,膨大なコーパスに対して Social Signals のフレーム単位のアノテーションを人手で行うことはコストの面から非現実的である.また,フレーム単位ではなく振る舞い単位で検出することで,頑健な検出が期待できる.そこで,CTC (Connectionist Temporal Classification) を用いることで,学習データ中の Social Signals の区間分割をすることなくモデルの学習を行う.実験結果より,従来のフレーム単位での検出結果より高い精度を確認した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2017-SLP-115,
号 8,
p. 1-5,
発行日 2017-02-10
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |