@techreport{oai:ipsj.ixsq.nii.ac.jp:00232481, author = {森谷, 崇史 and 佐藤, 宏 and 落合, 翼 and デルクロア, マーク and 芦原, 孝典 and 松浦, 孝平 and 田中, 智大 and 増村, 亮 and 小川, 厚徳 and 浅見, 太一}, issue = {11}, month = {Feb}, note = {複数の話者の音声から目的の話者の音声のみを書き起こす目的話者音声認識システムは,ユーザ依存のアプリケーションにおいて高性能な音声認識を実現する上で必須の技術である.目的話者音声認識モデルの学習には複数の話者の音声を含む混合音が必要であり,単一話者の音声を複数用意して重畳する混合音を用いるのが一般的である.本研究では目的話者音声認識モデルの学習に混合音だけでなく,混合前の元の単一話者の音声も用いて認識性能を改善する手法を提案する.具体的には始めに混合前の単一話者の音声のみを用いて音声認識モデルを事前に学習し,次にその学習した音声認識モデルに混合前の単一話者の音声を入力して得られる事後確率を擬似的な正解ラベルとして利用する.目的話者音声認識モデルは混合音を入力して得られる目的話者音声認識の学習損失に加え,擬似的な正解ラベルを用いた知識蒸留による学習損失も用いることで性能改善が期待できる.実験により,提案手法によって学習した目的話者音声認識モデルは 9.4% の相対誤り改善率を達成した.}, title = {パラレルデータを用いた知識蒸留によるNeural Transducer型目的話者音声認識の性能改善の検討}, year = {2024} }