End-to-EndモデルによるSocial Signals検出および音声認識との統合

稲熊, 寛文; 井上, 昂治; 三村, 正人; 河原, 達也

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

End-to-EndモデルによるSocial Signals検出および音声認識との統合

https://ipsj.ixsq.nii.ac.jp/records/182872

名前 / ファイル	ライセンス	アクション
IPSJ-SLP17117007.pdf (786.2 kB)	Copyright (c) 2017 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2017-07-20

タイトル

End-to-EndモデルによるSocial Signals検出および音声認識との統合

言語

jpn

キーワード

主題Scheme

Other

主題

音声対話

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者名

稲熊, 寛文
井上, 昂治
三村, 正人
河原, 達也

論文抄録

内容記述タイプ

Other

内容記述

人間同士の対話では，言語的情報だけでなく，笑いやフィラー，相槌，言い淀みなどの Social Signals と呼ばれる非言語的振る舞いがしばしば観測される．Social Signals を検出することは話者の感情状態やエンゲージメントなどを推定するのに有効であり，対話システムがより人間らしく振る舞うための情報源にもなり得る．著者らは，学習データ中の正解ラベル系列の区間分割が不要な End-to-End モデルである Connectionist Temporal Classification (CTC) を損失関数とする BLSTM-CTC を用いることで，音声対話中に表出する Social Signal の頑健で直接的な検出を行っている．本稿では，従来の文字単位の End-to-End 音声認識と Social Signals の検出を同時に行い，これらが統一的な枠組みで扱えることを示す．さらに，通常の発話特別して Social Signals を検出し，それらを除去することによって，大規模コーパスにおいて認識精度が改善することを確認する．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2017-SLP-117, 号 7, p. 1-6, 発行日 2017-07-20

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-20 03:54:15.996138

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

End-to-EndモデルによるSocial Signals検出および音声認識との統合

× 稲熊, 寛文

× 井上, 昂治

× 三村, 正人

× 河原, 達也

Versions

Share

Cite as

エクスポート