| Item type |
SIG Technical Reports(1) |
| 公開日 |
2022-11-22 |
| タイトル |
|
|
タイトル |
大規模音声データのみ獲得できる環境下への音声認識モデルのドメイン適応 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
ASR model adaptation to target domain with large-scale audio data without transcription |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声認識(2) |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
豊橋技術科学大学 |
| 著者所属 |
|
|
|
豊橋技術科学大学 |
| 著者所属 |
|
|
|
日本電信電話株式会社 |
| 著者所属 |
|
|
|
豊橋技術科学大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
NIPPON TELEGRAPH AND TELEPHONE CORPORATION |
| 著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
| 著者名 |
木内, 貴浩
森, 大輝
小川, 厚徳
北岡, 教英
|
| 著者名(英) |
Takahiro, Kinouchi
Daiki, Mori
Atsunori, Ogawa
Kitaoka, Norihide
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
現在,Transformer 音声認識モデルなどの高性能なモデルの登場により様々なサービスや事業で音声認識が活用されいる.しかし,高精度な音声認識モデルをスクラッチで学習するためには,大量の音声データと,その書き起こしテキストデータが必要となる.これらのデータを自前で準備することは時間的にも経済的にも難しいとされている.一方で,ターゲットドメイン内の音声データのみであれば比較的容易に準備することが可能である.そこで本研究では,大量のターゲットドメイン音声のみで事前学習された wav2vec 2.0 モデルと,大量のドメイン外コーパスで事前学習された Transformer ASR モデルのデコーダモジュールを統合し,比較的ターゲットドメインに適応した ASR モデルを作成する.本手法は、ターゲットドメインの学習データ (音声データと,その書き起こしテキストデータ) が存在しない環境下で,ターゲットドメインの音声認識モデルを作成することを目的とする. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Nowadays, speech recognition is used in various services and businesses thanks to the advent of high-performance models such as the Transformer speech recognition model. However, to train our high-performance speech recognition model from scratch, we need a large amount of speech data and its transcribed text data. It is both time-consuming and economically difficult for us to prepare these data on our own. On the other hand, it is relatively easy to prepare only the speech data of the target domain. Therefore, in this study, we integrate the wav2vec 2.0 model, which is pre-trained only with a large amount of target domain speech data, and the decoder module of the Transformer speech recognition model, which is pre-trained with a large amount of out-of-domain corpus, to create an speech recognition model that is comparatively applicable to the target domain. The purpose of this study is to create a speech recognition model for the target domain in an environment where the training data (speech data and its transcribed text data) of the target domain does not exist. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2022-SLP-144,
号 26,
p. 1-4,
発行日 2022-11-22
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |