Item type |
SIG Technical Reports(1) |
公開日 |
2024-12-05 |
タイトル |
|
|
タイトル |
発話重複を含む会話音声認識のための話者識別CTC損失関数の検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Speaker-Discriminative CTC for Multi-Talker Speech Recognition |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
NHK放送技術研究所 |
著者所属 |
|
|
|
NHK放送技術研究所 |
著者所属 |
|
|
|
NHK放送技術研究所 |
著者所属 |
|
|
|
NHK放送技術研究所 |
著者所属 |
|
|
|
NHK放送技術研究所 |
著者所属 |
|
|
|
早稲田大学 |
著者所属(英) |
|
|
|
en |
|
|
Science and Technology Research Labs., Japan Broadcasting Corp. |
著者所属(英) |
|
|
|
en |
|
|
Science and Technology Research Labs., Japan Broadcasting Corp. |
著者所属(英) |
|
|
|
en |
|
|
Science and Technology Research Labs., Japan Broadcasting Corp. |
著者所属(英) |
|
|
|
en |
|
|
Science and Technology Research Labs., Japan Broadcasting Corp. |
著者所属(英) |
|
|
|
en |
|
|
Science and Technology Research Labs., Japan Broadcasting Corp. |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者名 |
佐久間, 旭
佐藤, 裕明
菅野, 竜雅
熊野, 正
河合, 吉彦
小川, 哲司
|
著者名(英) |
Asahi, Sakuma
Hiroaki, Sato
Ryuga, Sugano
Tadashi, Kumano
Yoshihiko, Kawai
Tetsuji, Ogawa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,Connectionist Temporal Classification(CTC)に話者識別機能を統合し,発話重複を含む会話音声認識の精度を向上させる手法を提案する.近年,発話重複への対策として,各話者の発話テキストを連結して学習する Serialized Output Training(SOT)の拡張手法が数多く提案されている.特に,テキストに加えてトークン単位のタイムスタンプなどの補助情報を活用する方法は高い認識精度を達成しているが,そのような情報を実際の会話音声から高精度に取得することは難しい.本稿で提案する Speaker-Discriminative CTC(SD-CTC)は,encoder 出力から各フレームの話者を識別することで,複数話者においても CTC を適用可能とする.SD-CTC と SOT のマルチタスク学習を行うことで,補助情報を必要とせずに SOT モデルの精度を向上させることができる.疑似的な発話重複音声を用いた評価実験の結果,提案手法は SOT モデルの認識精度を 25%向上させ,補助情報を用いた手法と同等の性能を実現した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we propose a novel method Speaker-Discriminative CTC (SD-CTC) to improve speech recognition accuracy on conversations with overlapping utterances by incorporating a speaker discrimination mechanism into Connectionist Temporal Classification (CTC). In recent years, numerous modifications of the Serialized Output Training (SOT) method, which learns by concatenating the speech transcripts of each speaker in order of appearance, have been introduced as a countermeasure to address overlapped speech, in particular methods that use additional auxiliary information, such as token-level timestamps on the transcript, achieve superior accuracy. However, obtaining such information from real conversational speech is challenging. Our proposed SD-CTC enhances the model's ability to distinguish speakers and vocabulary from each encoder output frame in overlapping multi-talker speech. Multi-task learning of the SOT model with SD-CTC improves recognition accuracy without any additional information other than the transcript for each speaker. Experimental evaluation on simulated overlapping speech dataset shows that our proposed method reduces the word error rate by 25% compared to the original SOT model, which achieves comparable performance to methods using auxiliary information. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2024-NL-262,
号 14,
p. 1-6,
発行日 2024-12-05
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |