ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2024
  4. 2024-NL-262

発話重複を含む会話音声認識のための話者識別CTC損失関数の検討

https://ipsj.ixsq.nii.ac.jp/records/241589
https://ipsj.ixsq.nii.ac.jp/records/241589
600f17e7-c5d0-49e8-86d9-119b63e82daf
名前 / ファイル ライセンス アクション
IPSJ-NL24262014.pdf IPSJ-NL24262014.pdf (1.4 MB)
Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
NL:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-12-05
タイトル
タイトル 発話重複を含む会話音声認識のための話者識別CTC損失関数の検討
タイトル
言語 en
タイトル Speaker-Discriminative CTC for Multi-Talker Speech Recognition
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
NHK放送技術研究所
著者所属
NHK放送技術研究所
著者所属
NHK放送技術研究所
著者所属
NHK放送技術研究所
著者所属
NHK放送技術研究所
著者所属
早稲田大学
著者所属(英)
en
Science and Technology Research Labs., Japan Broadcasting Corp.
著者所属(英)
en
Science and Technology Research Labs., Japan Broadcasting Corp.
著者所属(英)
en
Science and Technology Research Labs., Japan Broadcasting Corp.
著者所属(英)
en
Science and Technology Research Labs., Japan Broadcasting Corp.
著者所属(英)
en
Science and Technology Research Labs., Japan Broadcasting Corp.
著者所属(英)
en
Waseda University
著者名 佐久間, 旭

× 佐久間, 旭

佐久間, 旭

Search repository
佐藤, 裕明

× 佐藤, 裕明

佐藤, 裕明

Search repository
菅野, 竜雅

× 菅野, 竜雅

菅野, 竜雅

Search repository
熊野, 正

× 熊野, 正

熊野, 正

Search repository
河合, 吉彦

× 河合, 吉彦

河合, 吉彦

Search repository
小川, 哲司

× 小川, 哲司

小川, 哲司

Search repository
著者名(英) Asahi, Sakuma

× Asahi, Sakuma

en Asahi, Sakuma

Search repository
Hiroaki, Sato

× Hiroaki, Sato

en Hiroaki, Sato

Search repository
Ryuga, Sugano

× Ryuga, Sugano

en Ryuga, Sugano

Search repository
Tadashi, Kumano

× Tadashi, Kumano

en Tadashi, Kumano

Search repository
Yoshihiko, Kawai

× Yoshihiko, Kawai

en Yoshihiko, Kawai

Search repository
Tetsuji, Ogawa

× Tetsuji, Ogawa

en Tetsuji, Ogawa

Search repository
論文抄録
内容記述タイプ Other
内容記述 本稿では,Connectionist Temporal Classification(CTC)に話者識別機能を統合し,発話重複を含む会話音声認識の精度を向上させる手法を提案する.近年,発話重複への対策として,各話者の発話テキストを連結して学習する Serialized Output Training(SOT)の拡張手法が数多く提案されている.特に,テキストに加えてトークン単位のタイムスタンプなどの補助情報を活用する方法は高い認識精度を達成しているが,そのような情報を実際の会話音声から高精度に取得することは難しい.本稿で提案する Speaker-Discriminative CTC(SD-CTC)は,encoder 出力から各フレームの話者を識別することで,複数話者においても CTC を適用可能とする.SD-CTC と SOT のマルチタスク学習を行うことで,補助情報を必要とせずに SOT モデルの精度を向上させることができる.疑似的な発話重複音声を用いた評価実験の結果,提案手法は SOT モデルの認識精度を 25%向上させ,補助情報を用いた手法と同等の性能を実現した.
論文抄録(英)
内容記述タイプ Other
内容記述 In this paper, we propose a novel method Speaker-Discriminative CTC (SD-CTC) to improve speech recognition accuracy on conversations with overlapping utterances by incorporating a speaker discrimination mechanism into Connectionist Temporal Classification (CTC). In recent years, numerous modifications of the Serialized Output Training (SOT) method, which learns by concatenating the speech transcripts of each speaker in order of appearance, have been introduced as a countermeasure to address overlapped speech, in particular methods that use additional auxiliary information, such as token-level timestamps on the transcript, achieve superior accuracy. However, obtaining such information from real conversational speech is challenging. Our proposed SD-CTC enhances the model's ability to distinguish speakers and vocabulary from each encoder output frame in overlapping multi-talker speech. Multi-task learning of the SOT model with SD-CTC improves recognition accuracy without any additional information other than the transcript for each speaker. Experimental evaluation on simulated overlapping speech dataset shows that our proposed method reduces the word error rate by 25% compared to the original SOT model, which achieves comparable performance to methods using auxiliary information.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 研究報告自然言語処理(NL)

巻 2024-NL-262, 号 14, p. 1-6, 発行日 2024-12-05
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8779
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:36:41.328842
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3