Item type |
SIG Technical Reports(1) |
公開日 |
2023-02-21 |
タイトル |
|
|
タイトル |
DNN音声強調におけるNoisy-target Trainingの分析と実応用に向けた調査 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Analysis of Noisy-target Training for DNN-based speech enhancement and investigation towards its practical use |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
EA3 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
名古屋大学情報学研究科 |
著者所属 |
|
|
|
名古屋大学情報学研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics, Nagoya University |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics, Nagoya University |
著者名 |
藤村, 拓弥
戸田, 智基
|
著者名(英) |
Takuya, Fujimura
Tomoki, Toda
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Deep neural network (DNN) 音声強調では,一般的にクリーン音声を学習のターゲットとして用いる.しかしながら,クリーン音声の収録には多大な労力を要すため,大量の学習データの入手は困難な状況にある.これに対して,収録が容易な雑音混入音声をターゲットとして活用するNoisy-target Training (NyTT) を提案し,NyTT がクリーン音声を用いずに音声強調を学習可能であることを実験的に示した.しかしながら,NyTT の動作理由や詳細な特性,大量の雑音混入音声の活用の有効性についての十分な調査は実施されていない.そこで本稿では,NyTT に関する挙動分析を実施することで,その特性に対する理解を深める.さらに,NyTT の特性に基づき,より高品質な音声強調を実現する学習法を提案し,その有効性を示す.また,大量の雑音混入音声の学習への活用が,実際に音声強調性能の向上に有効であるかを調査する. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Deep neural network (DNN)-based speech enhancement usually uses a clean speech as a training target. However, it is hard to collect large amounts of clean speech because its recording is very costly. To relax this limitation, we proposed Noisy-target Training (NyTT) that utilizes noisy speech as a training target. It has been experimentally shown that NyTT can train a DNN without clean speech. However, sufficient investigations have not been conducted to clarify the reason why NyTT works, its detailed property, and the effectiveness of utilizing large amounts of noisy speech. In this paper, we conduct various analyses to deepen our understanding of NyTT. Based on the property of NyTT, we also propose a refined method that performs higher-quality speech enhancement. Furthermore, we investigate whether using a huge amount of noisy speech is effective for improving speech enhancement performance. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-146,
号 55,
p. 1-6,
発行日 2023-02-21
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |