情報学広場：情報処理学会電子図書館

WEKO3

To

lat lon distance

[[sub_check.contents]]

[[sub_check.contents]]

[[sub_radio.contents]]

To

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

複数の音声認識システムとLLMを活用したE2E音声認識システムへのユーザ単語登録機能の検討

https://ipsj.ixsq.nii.ac.jp/records/2000420

名前 / ファイル	ライセンス	アクション
IPSJ-SLP25155096.pdf (1014.7 KB) 2027年2月23日からダウンロード可能です。	Copyright (c) 2025 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, SLP:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2025-02-23

タイトル

言語

ja

タイトル

複数の音声認識システムとLLMを活用したE2E音声認識システムへのユーザ単語登録機能の検討

言語

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー

著者所属

東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー

著者所属

東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー

著者所属

東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー

著者所属

東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー

著者名

芦川,平
田中,大貴
籠嶋,岳彦
早川,大智
渡辺,友樹

論文抄録

内容記述タイプ

Other

内容記述

近年，音声認識技術において，音声を直接文字に変換するエンドツーエンド(E2E)の手法が発展してきており，一般的な発話に対して，高い認識精度を実現している．一方で，人名，組織名，専門用語等のドメイン固有の語彙を含む発話を正しく認識させたい場合，一般的には，対象ドメインの音声・テキストのペアデータセットを追加収集しファインチューニングするか，収集したテキストでドメイン言語モデルを別で作成する必要がある．しかし，事前に対象ドメインから音声やテキストを一定量収集する必要があり，準備コストが非常に大きい．そこで、今回の研究では、E2E音声認識システムにおいて、認識させたい単語や語句（以下、ユーザ単語）を準備するだけで、学習データの準備やファインチューニングを行わずに、専門用語等を含む発話を正しく音声認識できる手法を検討した．具体的には，発話内に含まれるユーザ単語を検出した後に，検出したユーザ単語を反映した音声認識結果の生成と，大規模言語モデル(LLM)による認識結果の訂正を行うことにより，E2E音声認識システム向けのユーザ単語登録機能を実現した．講演会8回の音声データを用いて，本手法の評価実験を行ったところ，オリジナル出力であるベース性能と比較して，文字誤り率を劣化させることなく，ユーザ単語F値が平均で3.05向上（最大で8.08向上）することが確認できた．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2025-SLP-155, 号 96, p. 1-8, 発行日 2025-02-23

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

ja

出版者

情報処理学会

戻る

0

views

	Views

Versions

Ver.1

2025-02-18 06:13:15.876431

Show All versions

Share

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX