Item type |
SIG Technical Reports(1) |
公開日 |
2023-06-16 |
タイトル |
|
|
タイトル |
目標ドメイン音声を用いた自己教師あり学習に基づく音声認識モデルのドメイン適応 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Domain adaptation of speech recognition models based on self-supervised learning using target domain speech |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者所属(英) |
|
|
|
en |
|
|
NIPPON TELEGRAPH AND TELEPHONE CORPORATION |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者名 |
木内, 貴浩
小川, 厚徳
若林, 佑幸
北岡, 教英
|
著者名(英) |
Takahiro, Kinouchi
Atsunori, Ogawa
Yukoh, Wakabayashi
Norihide, Kitaoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,目標ドメインの書き起こしテキストデータを利用せず,目標ドメインの音声データのみを用い,目標外ドメインで事前学習された音声認識モデルからドメイン適応する手法を提案する.音声認識は様々なサービスや事業で活用されており,それらの各ドメインにおける音声の認識精度は,そのドメインにおける音声データ量に依存することが知られている.一般的には,高精度な音声認識モデル構築のために大量の音声データとその書き起こしテキストデータによってスクラッチで学習,または fine-tuning することが望ましいが,各ドメインにおけるモデル構築の度にこれらのデータを用意することは高コストであり困難である.そこで我々は,音声データのみを準備することが比較的低コストでできることに着目する.この条件のもと,本研究では,大量の目標ドメイン音声のみで事前学習した wav2vec 2.0 モデルを Encoder とする,Encoder–Decoder 型音声認識モデルを,目標外ドメインの大量の書き起こしコーパスで fine-tuning し,目標ドメインに適応させる手法を提案する.提案手法は,三つの段階的な学習: 1) wav2vec 2.0 の追加事前学習,2) wav2vec 2.0 の fine-tuning,3) wav2vec 2.0 を Encoder とした Joint CTC/Transformer モデル構築,によって構成されている.本手法を用いることで,目標ドメイン評価データに対し,Encoder を目標ドメインで事前学習しない場合に比べて,文字誤り率が約 3.8 pts 改善された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this study, we propose a domain adaptation method using only speech data in the target domain without using transcribed text data in the target domain based on a speech recognition model that has been pre-trained in the source domain. Speech recognition is used in various services and businesses, and it is known that the accuracy of speech recognition in each of these domains depends on the amount of speech data in that domain. Generally, it is desirable to train or fine-tune speech recognition models from scratch using a large amount of speech data and transcribed text data to build highly accurate models. However, preparing such data is expensive and difficult every time a model is built in each domain. Therefore, we focused on the fact that it is relatively inexpensive to prepare only audio data. Under these conditions, we developed an Encoder-Decoder speech recognition model using a wav2vec 2.0model as the Encoder, which was pre-trained with a large amount of target-domain speech only, and a large corpus of fine-tuned transcriptions in the non-target domain. We propose adapting an Encoder–Decoder type speech recognition model to the target domain by fine-tuning it with a large corpus of transcriptions in the off-target domain. The proposed method consists of three steps: 1) additional pre-training of wav2vec 2.0, 2) fine-tuning of wav2vec 2.0, and 3) building a Joint CTC/Transformer model with wav2vec 2.0as the Encoder. This method improved the character error rate by approximately 3.8 pts compared to the case where the Encoder was not pre-trained in the target domain for the target domain evaluation data. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-147,
号 58,
p. 1-6,
発行日 2023-06-16
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |