Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
パラレルデータを用いた知識蒸留によるNeural Transducer型目的話者音声認識の性能改善の検討 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SLP |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属 |
|
|
|
日本電信電話株式会社(NTT) |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者所属(英) |
|
|
|
en |
|
|
NTT |
著者名 |
森谷, 崇史
佐藤, 宏
落合, 翼
デルクロア, マーク
芦原, 孝典
松浦, 孝平
田中, 智大
増村, 亮
小川, 厚徳
浅見, 太一
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
複数の話者の音声から目的の話者の音声のみを書き起こす目的話者音声認識システムは,ユーザ依存のアプリケーションにおいて高性能な音声認識を実現する上で必須の技術である.目的話者音声認識モデルの学習には複数の話者の音声を含む混合音が必要であり,単一話者の音声を複数用意して重畳する混合音を用いるのが一般的である.本研究では目的話者音声認識モデルの学習に混合音だけでなく,混合前の元の単一話者の音声も用いて認識性能を改善する手法を提案する.具体的には始めに混合前の単一話者の音声のみを用いて音声認識モデルを事前に学習し,次にその学習した音声認識モデルに混合前の単一話者の音声を入力して得られる事後確率を擬似的な正解ラベルとして利用する.目的話者音声認識モデルは混合音を入力して得られる目的話者音声認識の学習損失に加え,擬似的な正解ラベルを用いた知識蒸留による学習損失も用いることで性能改善が期待できる.実験により,提案手法によって学習した目的話者音声認識モデルは 9.4% の相対誤り改善率を達成した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 11,
p. 1-6,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |