@techreport{oai:ipsj.ixsq.nii.ac.jp:00226362, author = {木内, 貴浩 and 小川, 厚徳 and 若林, 佑幸 and 北岡, 教英 and Takahiro, Kinouchi and Atsunori, Ogawa and Yukoh, Wakabayashi and Norihide, Kitaoka}, issue = {58}, month = {Jun}, note = {本研究では,目標ドメインの書き起こしテキストデータを利用せず,目標ドメインの音声データのみを用い,目標外ドメインで事前学習された音声認識モデルからドメイン適応する手法を提案する.音声認識は様々なサービスや事業で活用されており,それらの各ドメインにおける音声の認識精度は,そのドメインにおける音声データ量に依存することが知られている.一般的には,高精度な音声認識モデル構築のために大量の音声データとその書き起こしテキストデータによってスクラッチで学習,または fine-tuning することが望ましいが,各ドメインにおけるモデル構築の度にこれらのデータを用意することは高コストであり困難である.そこで我々は,音声データのみを準備することが比較的低コストでできることに着目する.この条件のもと,本研究では,大量の目標ドメイン音声のみで事前学習した wav2vec 2.0 モデルを Encoder とする,Encoder–Decoder 型音声認識モデルを,目標外ドメインの大量の書き起こしコーパスで fine-tuning し,目標ドメインに適応させる手法を提案する.提案手法は,三つの段階的な学習: 1) wav2vec 2.0 の追加事前学習,2) wav2vec 2.0 の fine-tuning,3) wav2vec 2.0 を Encoder とした Joint CTC/Transformer モデル構築,によって構成されている.本手法を用いることで,目標ドメイン評価データに対し,Encoder を目標ドメインで事前学習しない場合に比べて,文字誤り率が約 3.8 pts 改善された., In this study, we propose a domain adaptation method using only speech data in the target domain without using transcribed text data in the target domain based on a speech recognition model that has been pre-trained in the source domain. Speech recognition is used in various services and businesses, and it is known that the accuracy of speech recognition in each of these domains depends on the amount of speech data in that domain. Generally, it is desirable to train or fine-tune speech recognition models from scratch using a large amount of speech data and transcribed text data to build highly accurate models. However, preparing such data is expensive and difficult every time a model is built in each domain. Therefore, we focused on the fact that it is relatively inexpensive to prepare only audio data. Under these conditions, we developed an Encoder-Decoder speech recognition model using a wav2vec 2.0model as the Encoder, which was pre-trained with a large amount of target-domain speech only, and a large corpus of fine-tuned transcriptions in the non-target domain. We propose adapting an Encoder–Decoder type speech recognition model to the target domain by fine-tuning it with a large corpus of transcriptions in the off-target domain. The proposed method consists of three steps: 1) additional pre-training of wav2vec 2.0, 2) fine-tuning of wav2vec 2.0, and 3) building a Joint CTC/Transformer model with wav2vec 2.0as the Encoder. This method improved the character error rate by approximately 3.8 pts compared to the case where the Encoder was not pre-trained in the target domain for the target domain evaluation data.}, title = {目標ドメイン音声を用いた自己教師あり学習に基づく音声認識モデルのドメイン適応}, year = {2023} }