@techreport{oai:ipsj.ixsq.nii.ac.jp:00241625, author = {本多, 智揮 and 坂井, 信輔 and 河原, 達也}, issue = {5}, month = {Dec}, note = {近年,多くの音声認識タスクにおいて Conformer は非常に高い性能を達成している.一方で,Conformer のような自己注意機構をもつモデルは,長時間の音声入力に対しては処理時間が非常に長くなるだけでなく,認識精度も低下することが知られている.この問題を解決するため,本研究では,自己注意機構の代替として構造化状態空間モデルの一種である Hungry Hungry Hippos (H3) を導入することを提案する.H3 の入力に線形な計算量で長い入力系列を効果的にモデル化できる特長を活用することにより,提案モデルである H3-Conformer は,長時間音声の効率的かつ堅牢な認識を実現した.さらに,H3 と自己注意機構を組み合わせたハイブリッドモデルを提案し,H3 を上位層で,自己注意機構を下位層で使用することで,オンライン音声認識タスクの性能を大幅に向上させることを示した.}, title = {Hybrid H3-Conformerを用いた頑健な長時間音声認識}, year = {2024} }