@techreport{oai:ipsj.ixsq.nii.ac.jp:02000420, author = {芦川,平 and 田中,大貴 and 籠嶋,岳彦 and 早川,大智 and 渡辺,友樹}, issue = {96}, month = {Feb}, note = {近年,音声認識技術において,音声を直接文字に変換するエンドツーエンド(E2E)の手法が発展してきており,一般的な発話に対して,高い認識精度を実現している.一方で,人名,組織名,専門用語等のドメイン固有の語彙を含む発話を正しく認識させたい場合,一般的には,対象ドメインの音声・テキストのペアデータセットを追加収集しファインチューニングするか,収集したテキストでドメイン言語モデルを別で作成する必要がある.しかし,事前に対象ドメインから音声やテキストを一定量収集する必要があり,準備コストが非常に大きい.そこで、今回の研究では、E2E音声認識システムにおいて、認識させたい単語や語句(以下、ユーザ単語)を準備するだけで、学習データの準備やファインチューニングを行わずに、専門用語等を含む発話を正しく音声認識できる手法を検討した.具体的には,発話内に含まれるユーザ単語を検出した後に,検出したユーザ単語を反映した音声認識結果の生成と,大規模言語モデル(LLM)による認識結果の訂正を行うことにより,E2E音声認識システム向けのユーザ単語登録機能を実現した.講演会8回の音声データを用いて,本手法の評価実験を行ったところ,オリジナル出力であるベース性能と比較して,文字誤り率を劣化させることなく,ユーザ単語F値が平均で3.05向上(最大で8.08向上)することが確認できた.}, title = {複数の音声認識システムとLLMを活用したE2E音声認識システムへのユーザ単語登録機能の検討}, year = {2025} }