ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2024
  4. 2024-SLP-154

End-to-End音声認識における指示チューニングされた大規模言語モデルの活用

https://ipsj.ixsq.nii.ac.jp/records/241647
https://ipsj.ixsq.nii.ac.jp/records/241647
ab0e73ed-ae99-46f9-9fdc-2be5c907f3a2
名前 / ファイル ライセンス アクション
IPSJ-SLP24154027.pdf IPSJ-SLP24154027.pdf (508.0 kB)
 2026年12月5日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-12-05
タイトル
タイトル End-to-End音声認識における指示チューニングされた大規模言語モデルの活用
タイトル
言語 en
タイトル End-to-End Speech Recognition Guided by Instruction-Tuned Large Language Model
言語
言語 jpn
キーワード
主題Scheme Other
主題 特別セッション:分野横断
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
早稲田大学
著者所属
早稲田大学
著者所属
早稲田大学
著者所属(英)
en
Waseda University
著者所属(英)
en
Waseda University
著者所属(英)
en
Waseda University
著者名 樋口, 陽祐

× 樋口, 陽祐

樋口, 陽祐

Search repository
小川, 哲司

× 小川, 哲司

小川, 哲司

Search repository
小林, 哲則

× 小林, 哲則

小林, 哲則

Search repository
著者名(英) Yosuke, Higuchi

× Yosuke, Higuchi

en Yosuke, Higuchi

Search repository
Tetsuji, Ogawa

× Tetsuji, Ogawa

en Tetsuji, Ogawa

Search repository
Tetsunori, Kobayashi

× Tetsunori, Kobayashi

en Tetsunori, Kobayashi

Search repository
論文抄録
内容記述タイプ Other
内容記述 指示チューニングされた大規模言語モデル (Large Language Model; LLM) を用いて,音声認識におけるテキスト生成性能を向上させることを試みた.近年の LLM は所望の用途に応じた指示を与えることで,多様なテキスト生成タスクをゼロショットで解くことが可能になっている.本稿では,LLM の持つ汎用的な能力を活用し,End-to-End 音声認識モデルにおいて,正確なテキストを生成するために有用な言語情報を LLM から獲得する手法を提案する.具体的には,LLM を用いて音声認識の文仮説に対する誤り訂正を行い,その過程で得られる LLM の特徴表現を利用して音声認識モデルを構築する.提案のモデルは,Connectionist Temporal Classification と Attention に基づいたエンコーダ・デコーダのハイブリッド方式を採用し,デコーダの前段に LLM を配置する.エンコーダの出力表現を用いて CTC による推論結果を得た後,認識誤り訂正に関する指示文とともに LLM に入力する.デコーダはエンコーダと LLM の両方から得られる出力表現を基に系列推定を行う.これにより,音声情報と LLM の言語情報を効果的に統合し,高精度な音声認識が可能となることを期待する.主要な音声認識ベンチマークを用いた実験において提案モデルを評価したところ,既存モデルを上回る認識性能を与えることが明らかとなった.また,提案モデルが End-to-End 音声翻訳にも応用可能であることを確認した.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2024-SLP-154, 号 27, p. 1-8, 発行日 2024-12-05
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:35:32.488002
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3