@techreport{oai:ipsj.ixsq.nii.ac.jp:00182872, author = {稲熊, 寛文 and 井上, 昂治 and 三村, 正人 and 河原, 達也}, issue = {7}, month = {Jul}, note = {人間同士の対話では,言語的情報だけでなく,笑いやフィラー,相槌,言い淀みなどの Social Signals と呼ばれる非言語的振る舞いがしばしば観測される.Social Signals を検出することは話者の感情状態やエンゲージメントなどを推定するのに有効であり,対話システムがより人間らしく振る舞うための情報源にもなり得る.著者らは,学習データ中の正解ラベル系列の区間分割が不要な End-to-End モデルである Connectionist Temporal Classification (CTC) を損失関数とする BLSTM-CTC を用いることで,音声対話中に表出する Social Signal の頑健で直接的な検出を行っている.本稿では,従来の文字単位の End-to-End 音声認識と Social Signals の検出を同時に行い,これらが統一的な枠組みで扱えることを示す.さらに,通常の発話特別して Social Signals を検出し,それらを除去することによって,大規模コーパスにおいて認識精度が改善することを確認する.}, title = {End-to-EndモデルによるSocial Signals検出および音声認識との統合}, year = {2017} }