@techreport{oai:ipsj.ixsq.nii.ac.jp:00241647, author = {樋口, 陽祐 and 小川, 哲司 and 小林, 哲則 and Yosuke, Higuchi and Tetsuji, Ogawa and Tetsunori, Kobayashi}, issue = {27}, month = {Dec}, note = {指示チューニングされた大規模言語モデル (Large Language Model; LLM) を用いて,音声認識におけるテキスト生成性能を向上させることを試みた.近年の LLM は所望の用途に応じた指示を与えることで,多様なテキスト生成タスクをゼロショットで解くことが可能になっている.本稿では,LLM の持つ汎用的な能力を活用し,End-to-End 音声認識モデルにおいて,正確なテキストを生成するために有用な言語情報を LLM から獲得する手法を提案する.具体的には,LLM を用いて音声認識の文仮説に対する誤り訂正を行い,その過程で得られる LLM の特徴表現を利用して音声認識モデルを構築する.提案のモデルは,Connectionist Temporal Classification と Attention に基づいたエンコーダ・デコーダのハイブリッド方式を採用し,デコーダの前段に LLM を配置する.エンコーダの出力表現を用いて CTC による推論結果を得た後,認識誤り訂正に関する指示文とともに LLM に入力する.デコーダはエンコーダと LLM の両方から得られる出力表現を基に系列推定を行う.これにより,音声情報と LLM の言語情報を効果的に統合し,高精度な音声認識が可能となることを期待する.主要な音声認識ベンチマークを用いた実験において提案モデルを評価したところ,既存モデルを上回る認識性能を与えることが明らかとなった.また,提案モデルが End-to-End 音声翻訳にも応用可能であることを確認した.}, title = {End-to-End音声認識における指示チューニングされた大規模言語モデルの活用}, year = {2024} }