| Item type |
SIG Technical Reports(1) |
| 公開日 |
2025-02-23 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
複数の音声認識システムとLLMを活用したE2E音声認識システムへのユーザ単語登録機能の検討 |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー |
| 著者所属 |
|
|
|
東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー |
| 著者所属 |
|
|
|
東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー |
| 著者所属 |
|
|
|
東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー |
| 著者所属 |
|
|
|
東芝研究開発センター知能化システム研究所コラボレイティブAIラボラトリー |
| 著者名 |
芦川,平
田中,大貴
籠嶋,岳彦
早川,大智
渡辺,友樹
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,音声認識技術において,音声を直接文字に変換するエンドツーエンド(E2E)の手法が発展してきており,一般的な発話に対して,高い認識精度を実現している.一方で,人名,組織名,専門用語等のドメイン固有の語彙を含む発話を正しく認識させたい場合,一般的には,対象ドメインの音声・テキストのペアデータセットを追加収集しファインチューニングするか,収集したテキストでドメイン言語モデルを別で作成する必要がある.しかし,事前に対象ドメインから音声やテキストを一定量収集する必要があり,準備コストが非常に大きい.そこで、今回の研究では、E2E音声認識システムにおいて、認識させたい単語や語句(以下、ユーザ単語)を準備するだけで、学習データの準備やファインチューニングを行わずに、専門用語等を含む発話を正しく音声認識できる手法を検討した.具体的には,発話内に含まれるユーザ単語を検出した後に,検出したユーザ単語を反映した音声認識結果の生成と,大規模言語モデル(LLM)による認識結果の訂正を行うことにより,E2E音声認識システム向けのユーザ単語登録機能を実現した.講演会8回の音声データを用いて,本手法の評価実験を行ったところ,オリジナル出力であるベース性能と比較して,文字誤り率を劣化させることなく,ユーザ単語F値が平均で3.05向上(最大で8.08向上)することが確認できた. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2025-SLP-155,
号 96,
p. 1-8,
発行日 2025-02-23
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |