@techreport{oai:ipsj.ixsq.nii.ac.jp:00234717, author = {平野, 雄太 and サクティ, サクリアニ}, issue = {30}, month = {Jun}, note = {本研究では,End-to-End 複数話者音声認識モデルの認識精度改善を目的とした,話者ダイアライゼーションを用いたマルチタスク学習を提案する.エンコーダの中間層に話者ダイアライゼーションブランチを導入し,これが認識精度改善に寄与するかについて検証する.また,話者ダイアライゼーションの推定結果を考慮したエンコーダ出力を得るために,話者ダイアライゼーションの推定結果をエンコーダに入力する自己条件付けフィードバック機構を提案し,その効果についても実験的検証を行う.実験において,話者ダイアライゼーションによるマルチタスク学習と自己条件付けフィードバックを同時に用いたとき,ベースラインの認識精度からの改善が見られた.この結果から,「誰がいつ話したか」という情報が,End-to-End 複数話者音声認識モデルのエンコーダのモデリングに有効であることが示唆される.}, title = {話者ダイアライゼーションを用いたマルチタスク学習によるEnd-to-End複数話者音声認識の改善}, year = {2024} }