End-to-End音声認識における指示チューニングされた大規模言語モデルの活用

樋口, 陽祐; 小川, 哲司; 小林, 哲則; Yosuke, Higuchi; Tetsuji, Ogawa; Tetsunori, Kobayashi

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

End-to-End音声認識における指示チューニングされた大規模言語モデルの活用

https://ipsj.ixsq.nii.ac.jp/records/241647

名前 / ファイル	ライセンス	アクション
IPSJ-SLP24154027.pdf (508.0 kB) 2026年12月5日からダウンロード可能です。	Copyright (c) 2024 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, SLP:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2024-12-05

タイトル

End-to-End音声認識における指示チューニングされた大規模言語モデルの活用

タイトル

言語

タイトル

End-to-End Speech Recognition Guided by Instruction-Tuned Large Language Model

言語

jpn

キーワード

主題Scheme

Other

主題

特別セッション：分野横断

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

早稲田大学

著者所属

早稲田大学

著者所属

早稲田大学

著者所属(英)

Waseda University

著者所属(英)

Waseda University

著者所属(英)

Waseda University

著者名

樋口, 陽祐
小川, 哲司
小林, 哲則

著者名(英)

Yosuke, Higuchi
Tetsuji, Ogawa
Tetsunori, Kobayashi

論文抄録

内容記述タイプ

Other

内容記述

指示チューニングされた大規模言語モデル (Large Language Model; LLM) を用いて，音声認識におけるテキスト生成性能を向上させることを試みた．近年の LLM は所望の用途に応じた指示を与えることで，多様なテキスト生成タスクをゼロショットで解くことが可能になっている．本稿では，LLM の持つ汎用的な能力を活用し，End-to-End 音声認識モデルにおいて，正確なテキストを生成するために有用な言語情報を LLM から獲得する手法を提案する．具体的には，LLM を用いて音声認識の文仮説に対する誤り訂正を行い，その過程で得られる LLM の特徴表現を利用して音声認識モデルを構築する．提案のモデルは，Connectionist Temporal Classification と Attention に基づいたエンコーダ・デコーダのハイブリッド方式を採用し，デコーダの前段に LLM を配置する．エンコーダの出力表現を用いて CTC による推論結果を得た後，認識誤り訂正に関する指示文とともに LLM に入力する．デコーダはエンコーダと LLM の両方から得られる出力表現を基に系列推定を行う．これにより，音声情報と LLM の言語情報を効果的に統合し，高精度な音声認識が可能となることを期待する．主要な音声認識ベンチマークを用いた実験において提案モデルを評価したところ，既存モデルを上回る認識性能を与えることが明らかとなった．また，提案モデルが End-to-End 音声翻訳にも応用可能であることを確認した．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2024-SLP-154, 号 27, p. 1-8, 発行日 2024-12-05

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 07:35:32.488002

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

End-to-End音声認識における指示チューニングされた大規模言語モデルの活用

× 樋口, 陽祐

× 小川, 哲司

× 小林, 哲則

× Yosuke, Higuchi

× Tetsuji, Ogawa

× Tetsunori, Kobayashi

Versions

Share

Cite as

エクスポート