WEKO3
アイテム
大規模事前学習モデルとMixture-of-adaptersを用いた多言語音声認識
https://ipsj.ixsq.nii.ac.jp/records/241622
https://ipsj.ixsq.nii.ac.jp/records/241622f1c62b5d-491a-49f8-b547-3aad71c92ddc
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2026年12月5日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, SLP:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-12-05 | |||||||||||
| タイトル | ||||||||||||
| タイトル | 大規模事前学習モデルとMixture-of-adaptersを用いた多言語音声認識 | |||||||||||
| タイトル | ||||||||||||
| 言語 | en | |||||||||||
| タイトル | Multilingual Speech Recognition Using Mixture-of-adapters and Large-scale Pretrained Models | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 音声認識 | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 日本電信電話株式会社 | ||||||||||||
| 著者所属 | ||||||||||||
| 日本電信電話株式会社 | ||||||||||||
| 著者所属 | ||||||||||||
| 日本電信電話株式会社 | ||||||||||||
| 著者名 |
品山, 健太朗
× 品山, 健太朗
× 松浦, 孝平
× 三村, 正人
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 本稿では,パラメータ効率がよく,類似度の低い言語間でも言語干渉(負の転移)を生じにくい新しい多言語音声認識モデルの構築手法について述べる.提案手法では,大規模な多言語データで事前学習された基盤モデル XLS-R の各層に,言語間で共有される複数の adapter モジュール (mixture-of-adapters) を挿入し,所望の言語セットのデータを用いてこれらの adapter 集合を finetune する.このとき,学習可能な gating 機構を用いて,入力データに基づきフレーム単位または発話単位で mixture 中の adapter を 1 つ選択する.これにより,多言語間の知識共有と言語干渉の軽減を同時に実現する.FLEURS データセットの 5 言語または 10 言語を用いた多言語音声認識実験において,各層で adapter を 1 つのみ用いる手法と比較して,提案手法はより高い認識精度を示した.さらに,各 adapter の選択確率の偏りを緩和する balancing loss の導入と,局所的・大域的な gating 機構を組み合わせる手法を提案し,これらの有効性を検証した. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN10442647 | |||||||||||
| 書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2024-SLP-154, 号 2, p. 1-6, 発行日 2024-12-05 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8663 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||