Item type |
SIG Technical Reports(1) |
公開日 |
2021-06-11 |
タイトル |
|
|
タイトル |
言い淀みラベル付けによる非流暢発話のEnd-to-End音声認識 |
タイトル |
|
|
言語 |
en |
|
タイトル |
End-to-End Speech Recognition of Non-fluent Speech by Hesitation Labeling |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
徳島大学 |
著者所属 |
|
|
|
阿南工業高等専門学校 |
著者所属 |
|
|
|
徳島大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者所属(英) |
|
|
|
en |
|
|
Tokushima University |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Technology, Anan College |
著者所属(英) |
|
|
|
en |
|
|
Tokushima University |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者名 |
堀井, こはる
福田, 芽衣子
太田, 健吾
西村, 良太
北岡, 教英
|
著者名(英) |
Koharu, Horii
Meiko, Fukuda
Kengo, Ohta
Ryota, Nishimura
Norihide, Kitaoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
従来の ASR システムでは流暢な発話音声においては高い精度を発揮するが,高齢者音声等の非流暢発話では低くなってしまう.本研究では End-to-End 音声認識において,言い淀みをラベル付けして認識対象とすることによって,非流暢発話の精度がどう変化するか実験を行った.その結果,文誤り率はすべての評価データで改善し,モデルがラベルの意味を学習できていることが期待できる有効な結果を得られた. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Conventional Automatic Speech Recognition (ASR) shows high accuracy for fluent speech, but low accuracy for non-fluent speech such as that of elderly people. In this study, we labeled hesitations and recognize these hesitations as well as characters using End-to-End (E2E) speech recognition and examine the accuracy for non-fluent speech. As a result, the sentence error rate was improved for all the evaluated data and it suggests that the model has possibility to capture the disfluency. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2021-MUS-131,
号 18,
p. 1-7,
発行日 2021-06-11
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |