ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音楽情報科学(MUS)
  3. 2023
  4. 2023-MUS-137

目標ドメイン音声を用いた自己教師あり学習に基づく音声認識モデルのドメイン適応

https://ipsj.ixsq.nii.ac.jp/records/226362
https://ipsj.ixsq.nii.ac.jp/records/226362
4d6ae735-d64c-467f-ad57-cab06dc4ab19
名前 / ファイル ライセンス アクション
IPSJ-MUS23137058.pdf IPSJ-MUS23137058.pdf (916.3 kB)
Copyright (c) 2023 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
MUS:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2023-06-16
タイトル
タイトル 目標ドメイン音声を用いた自己教師あり学習に基づく音声認識モデルのドメイン適応
タイトル
言語 en
タイトル Domain adaptation of speech recognition models based on self-supervised learning using target domain speech
言語
言語 jpn
キーワード
主題Scheme Other
主題 一般発表
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
豊橋技術科学大学
著者所属
日本電信電話株式会社
著者所属
豊橋技術科学大学
著者所属
豊橋技術科学大学
著者所属(英)
en
Toyohashi University of Technology
著者所属(英)
en
NIPPON TELEGRAPH AND TELEPHONE CORPORATION
著者所属(英)
en
Toyohashi University of Technology
著者所属(英)
en
Toyohashi University of Technology
著者名 木内, 貴浩

× 木内, 貴浩

木内, 貴浩

Search repository
小川, 厚徳

× 小川, 厚徳

小川, 厚徳

Search repository
若林, 佑幸

× 若林, 佑幸

若林, 佑幸

Search repository
北岡, 教英

× 北岡, 教英

北岡, 教英

Search repository
著者名(英) Takahiro, Kinouchi

× Takahiro, Kinouchi

en Takahiro, Kinouchi

Search repository
Atsunori, Ogawa

× Atsunori, Ogawa

en Atsunori, Ogawa

Search repository
Yukoh, Wakabayashi

× Yukoh, Wakabayashi

en Yukoh, Wakabayashi

Search repository
Norihide, Kitaoka

× Norihide, Kitaoka

en Norihide, Kitaoka

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究では,目標ドメインの書き起こしテキストデータを利用せず,目標ドメインの音声データのみを用い,目標外ドメインで事前学習された音声認識モデルからドメイン適応する手法を提案する.音声認識は様々なサービスや事業で活用されており,それらの各ドメインにおける音声の認識精度は,そのドメインにおける音声データ量に依存することが知られている.一般的には,高精度な音声認識モデル構築のために大量の音声データとその書き起こしテキストデータによってスクラッチで学習,または fine-tuning することが望ましいが,各ドメインにおけるモデル構築の度にこれらのデータを用意することは高コストであり困難である.そこで我々は,音声データのみを準備することが比較的低コストでできることに着目する.この条件のもと,本研究では,大量の目標ドメイン音声のみで事前学習した wav2vec 2.0 モデルを Encoder とする,Encoder–Decoder 型音声認識モデルを,目標外ドメインの大量の書き起こしコーパスで fine-tuning し,目標ドメインに適応させる手法を提案する.提案手法は,三つの段階的な学習: 1) wav2vec 2.0 の追加事前学習,2) wav2vec 2.0 の fine-tuning,3) wav2vec 2.0 を Encoder とした Joint CTC/Transformer モデル構築,によって構成されている.本手法を用いることで,目標ドメイン評価データに対し,Encoder を目標ドメインで事前学習しない場合に比べて,文字誤り率が約 3.8 pts 改善された.
論文抄録(英)
内容記述タイプ Other
内容記述 In this study, we propose a domain adaptation method using only speech data in the target domain without using transcribed text data in the target domain based on a speech recognition model that has been pre-trained in the source domain. Speech recognition is used in various services and businesses, and it is known that the accuracy of speech recognition in each of these domains depends on the amount of speech data in that domain. Generally, it is desirable to train or fine-tune speech recognition models from scratch using a large amount of speech data and transcribed text data to build highly accurate models. However, preparing such data is expensive and difficult every time a model is built in each domain. Therefore, we focused on the fact that it is relatively inexpensive to prepare only audio data. Under these conditions, we developed an Encoder-Decoder speech recognition model using a wav2vec 2.0model as the Encoder, which was pre-trained with a large amount of target-domain speech only, and a large corpus of fine-tuned transcriptions in the non-target domain. We propose adapting an Encoder–Decoder type speech recognition model to the target domain by fine-tuning it with a large corpus of transcriptions in the off-target domain. The proposed method consists of three steps: 1) additional pre-training of wav2vec 2.0, 2) fine-tuning of wav2vec 2.0, and 3) building a Joint CTC/Transformer model with wav2vec 2.0as the Encoder. This method improved the character error rate by approximately 3.8 pts compared to the case where the Encoder was not pre-trained in the target domain for the target domain evaluation data.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10438388
書誌情報 研究報告音楽情報科学(MUS)

巻 2023-MUS-137, 号 58, p. 1-6, 発行日 2023-06-16
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8752
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 12:30:04.542132
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3