@techreport{oai:ipsj.ixsq.nii.ac.jp:00177382, author = {稲熊, 寛文 and 井上, 昂治 and 三村, 正人 and 河原, 達也}, issue = {8}, month = {Feb}, note = {人間同士の対話では,言語的な発話だけでなく,笑いやフィラー,相槌などの Social Signals と呼ばれる非言語のやりとりが見られる.音声対話において,Social Signals を検出することは,話者の感情やエンゲージメント,対話の場などを推定することにつながり,また対話システムがより人間らしく振る舞うための情報源になり得る.本研究では,Bidirectional LSTM-CTC モデルを用いて,人間同士の音声対話中に表出する笑いとフィラーの検出を試みる.一般的に,膨大なコーパスに対して Social Signals のフレーム単位のアノテーションを人手で行うことはコストの面から非現実的である.また,フレーム単位ではなく振る舞い単位で検出することで,頑健な検出が期待できる.そこで,CTC (Connectionist Temporal Classification) を用いることで,学習データ中の Social Signals の区間分割をすることなくモデルの学習を行う.実験結果より,従来のフレーム単位での検出結果より高い精度を確認した.}, title = {LSTM-CTCによる音声対話におけるSocial Signalsの検出}, year = {2017} }