@techreport{oai:ipsj.ixsq.nii.ac.jp:00241622, author = {品山, 健太朗 and 松浦, 孝平 and 三村, 正人}, issue = {2}, month = {Dec}, note = {本稿では,パラメータ効率がよく,類似度の低い言語間でも言語干渉(負の転移)を生じにくい新しい多言語音声認識モデルの構築手法について述べる.提案手法では,大規模な多言語データで事前学習された基盤モデル XLS-R の各層に,言語間で共有される複数の adapter モジュール (mixture-of-adapters) を挿入し,所望の言語セットのデータを用いてこれらの adapter 集合を finetune する.このとき,学習可能な gating 機構を用いて,入力データに基づきフレーム単位または発話単位で mixture 中の adapter を 1 つ選択する.これにより,多言語間の知識共有と言語干渉の軽減を同時に実現する.FLEURS データセットの 5 言語または 10 言語を用いた多言語音声認識実験において,各層で adapter を 1 つのみ用いる手法と比較して,提案手法はより高い認識精度を示した.さらに,各 adapter の選択確率の偏りを緩和する balancing loss の導入と,局所的・大域的な gating 機構を組み合わせる手法を提案し,これらの有効性を検証した.}, title = {大規模事前学習モデルとMixture-of-adaptersを用いた多言語音声認識}, year = {2024} }