@techreport{oai:ipsj.ixsq.nii.ac.jp:00241646, author = {Lee, Jaeyoung and 三村, 正人 and 河原, 達也}, issue = {26}, month = {Dec}, note = {近年の End-to-End 自動音声認識の進展において,大規模な自己教師ありまたは弱教師ありモデルが重要な成果を達成している.しかし,モデルの規模が急速に拡大するにつれ,一貫して高性能な多言語モデルを訓練することは依然として困難である.本研究では,主となる文字単位音声認識に加えて,国際音声記号(IPA)ターゲットや言語に依らない調音に関する素性を予測することにより,多言語音声認識に普遍的な音韻知識を埋め込む手法を提案する.これらは様々な言語における音声認識において,効果的な帰納バイアスおよび正則化として機能することが期待される.実験では,Common Voiceコーパスの 120 言語・10,400 時間のデータを用いて,事前学習された XLS-R モデルをファインチューニングした結果,提案手法が文字誤り率を相対的に 6.81% 減少させることが示された.}, title = {End-to-End多言語音声認識における帰納バイアスとしてのIPAおよび調音素性の効果}, year = {2024} }