WEKO3
アイテム
End-to-End多言語音声認識における帰納バイアスとしてのIPAおよび調音素性の効果
https://ipsj.ixsq.nii.ac.jp/records/241646
https://ipsj.ixsq.nii.ac.jp/records/24164682e6e582-0e73-4bcd-87ec-6bd9e40387c4
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年12月5日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, SLP:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-12-05 | |||||||||||
タイトル | ||||||||||||
タイトル | End-to-End多言語音声認識における帰納バイアスとしてのIPAおよび調音素性の効果 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 特別セッション:分野横断 | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
京都大学情報学研究科 | ||||||||||||
著者所属 | ||||||||||||
NTT人間情報研究所 | ||||||||||||
著者所属 | ||||||||||||
京都大学情報学研究科 | ||||||||||||
著者名 |
Lee, Jaeyoung
× Lee, Jaeyoung
× 三村, 正人
× 河原, 達也
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 近年の End-to-End 自動音声認識の進展において,大規模な自己教師ありまたは弱教師ありモデルが重要な成果を達成している.しかし,モデルの規模が急速に拡大するにつれ,一貫して高性能な多言語モデルを訓練することは依然として困難である.本研究では,主となる文字単位音声認識に加えて,国際音声記号(IPA)ターゲットや言語に依らない調音に関する素性を予測することにより,多言語音声認識に普遍的な音韻知識を埋め込む手法を提案する.これらは様々な言語における音声認識において,効果的な帰納バイアスおよび正則化として機能することが期待される.実験では,Common Voiceコーパスの 120 言語・10,400 時間のデータを用いて,事前学習された XLS-R モデルをファインチューニングした結果,提案手法が文字誤り率を相対的に 6.81% 減少させることが示された. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10442647 | |||||||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2024-SLP-154, 号 26, p. 1-6, 発行日 2024-12-05 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8663 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |