ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音楽情報科学(MUS)
  3. 2024
  4. 2024-MUS-140

Contextual Biasingを用いた日本語End-to-End音声認識向け語彙登録の検討

https://ipsj.ixsq.nii.ac.jp/records/234667
https://ipsj.ixsq.nii.ac.jp/records/234667
fa1ada10-ddf5-4a38-aee8-adc2f7e4b274
名前 / ファイル ライセンス アクション
IPSJ-MUS24140055.pdf IPSJ-MUS24140055.pdf (1.2 MB)
 2026年6月7日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, MUS:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-06-07
タイトル
タイトル Contextual Biasingを用いた日本語End-to-End音声認識向け語彙登録の検討
タイトル
言語 en
タイトル Exploring Keyword Enrollment for Japanese End-to-End Automatic Speech Recognition using Contextual Biasing
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション2
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
三菱電機株式会社情報技術総合研究所
著者所属
三菱電機株式会社情報技術総合研究所
著者所属
Mitsubishi Electric Research Laboratories/現在,Apple
著者所属
Mitsubishi Electric Research Laboratories
著者所属
三菱電機株式会社情報技術総合研究所
著者所属(英)
en
Mitsubishi Electric Research Laboratories / Presently with Apple
著者所属(英)
en
Mitsubishi Electric Research Laboratories
著者名 三井, 祥幹

× 三井, 祥幹

三井, 祥幹

Search repository
相原, 龍

× 相原, 龍

相原, 龍

Search repository
堀, 貴明

× 堀, 貴明

堀, 貴明

Search repository
ルルー, ジョナトン

× ルルー, ジョナトン

ルルー, ジョナトン

Search repository
田口, 進也

× 田口, 進也

田口, 進也

Search repository
著者名(英) Yoshiki, Mitsui

× Yoshiki, Mitsui

en Yoshiki, Mitsui

Search repository
Ryo, Aihara

× Ryo, Aihara

en Ryo, Aihara

Search repository
Takaaki, Hori

× Takaaki, Hori

en Takaaki, Hori

Search repository
Jonathan, Le Roux

× Jonathan, Le Roux

en Jonathan, Le Roux

Search repository
Shinya, Taguchi

× Shinya, Taguchi

en Shinya, Taguchi

Search repository
論文抄録
内容記述タイプ Other
内容記述 深層学習の発展に伴い登場した end-to-end (E2E) 音声認識は,従来の階層型音声認識と比較し,総合的に高い性能を発揮する.しかし,階層型音声認識で容易に実現できていた,特定ドメイン向けの語彙登録が困難である欠点を抱えている.E2E 音声認識向けの語彙登録手法として,contextual biasing を用いる方法が提案されているが,特に日本語音声認識では,学習データに現れない表記を含む語彙を登録する場合に,十分な認識性能を得られない.これを解消するため,本稿では,語彙の登録にカタカナ・ひらがな等の表音文字による表記を利用し,音声認識結果テキストに対する後処理で,登録に用いた表記を,元の表記へと戻す改良手法を提案する.更に,表音文字による語彙の表記と,入力音声より得られる音響特徴量との結びつきを強めるため,E2E 音声認識モデルを学習させる際に,学習用テキストの一部の単語を,ランダムに表音文字表記へ置換する改良学習手法を併せて提案する.提案手法により,5 モーラ以上からなる語彙の登録タスクにおいて,元表記を利用し語彙を登録する従来手法よりも高い語彙登録性能が得られることを確認した.
論文抄録(英)
内容記述タイプ Other
内容記述 End-to-end (E2E) automatic speech recognition (ASR), which has emerged with the development of deep learning, exhibits generally higher performance than conventional modular ASR methods. However, E2E ASR has the drawback that it is difficult to enroll keywords for specific domains, which was easily realized in conventional ASR. Contextual biasing has been proposed for keyword enrollment methods for E2E ASR, but, for Japanese ASR, the performance is not sufficient when we enroll keywords which do not appear in the training data. To overcome this problem, we propose an updated keyword enrollment method where we use phonetic letter notations such as katakana or hiragana to recognize enrolled keywords, converting them back to their original notations in a postprocessing step. Additionally we propose an improved E2E ASR model training method to strengthen the connection between acoustic features obtained from input speech and phonetic letter notations by replacing some words from origial notation to phonetic letter notation. We observed higher keyword enrollment performance for keywords longer than five moras by using the proposed methods.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10438388
書誌情報 研究報告音楽情報科学(MUS)

巻 2024-MUS-140, 号 55, p. 1-7, 発行日 2024-06-07
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8752
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 09:43:56.254833
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3