@techreport{oai:ipsj.ixsq.nii.ac.jp:02007684, author = {三村,正人 and Lee,Jaeyoung and 河原,達也}, issue = {115}, month = {Feb}, note = {多言語対応のend-to-end音声認識(ASR)は、言語ごとに異なる文字体系、語彙、文法構造を扱う必要があるため、大きな課題を伴う。既存手法の多くは、言語間で十分な性能を得るために大規模モデルに依存しており、その結果、高い計算コストを要する。本研究では、この問題に対処するため、標準的なConformerとほぼ同等の推論コストを維持しつつ、モデル容量を拡張可能なSwitch Conformerを提案する。本手法では、各Conformerブロック内のFFNモジュールを、独立した複数のエキスパートからなる疎なmixtureに置き換え、入力ごとに1つのエキスパートのみを活性化することで、言語に依存した特徴を効率的にモデリングする。さらに、音素レベルの教師信号を用いて学習された共有エキスパートを導入し、言語に依存しない普遍的な音声特性を捉える。CommonVoiceデータセットを用いたストリーミングASRの実験により、これらのエキスパートが相互に補完的に機能し、追加される有効パラメータ数を最小限に抑えながら、ベースラインのConformerを上回る性能を達成することを示した。}, title = {共有IPAエキスパートを持つswitch Conformerによる多言語音声認識}, year = {2026} }