| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-02-22 |
| タイトル |
|
|
タイトル |
Remixed2Remixedを用いた音声強調のモデル学習法の改善 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Improving training recipe of Remixed2Remixed for speech enhancement |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション2 SP/SLP |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
株式会社サイバーエージェントAI Lab |
| 著者所属 |
|
|
|
株式会社サイバーエージェントAI Lab |
| 著者所属(英) |
|
|
|
en |
|
|
AI Lab, Cyberagent, Inc. |
| 著者所属(英) |
|
|
|
en |
|
|
AI Lab, Cyberagent, Inc. |
| 著者名 |
李, 莉
関, 翔悟
|
| 著者名(英) |
Li, Li
Shogo, Seki
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
深層学習を用いた音声強調において,ノイジー音声とクリーン音声のペアを学習データとする教師あり学習モデルは,学習データと異なる分布を持つ実環境データに対して強調性能が低下する傾向がある.この問題を緩和するために,教師あり学習モデルを実環境データのドメインに適用させる手法として,Remixed2Remixed(Re2Re)が提案された.Re2Re では,自己蒸留の枠組みに基づいて,教師あり学習モデルを教師モデルとして利用し,実環境データに対する音声強調モデルを生徒モデルとして学習する.生徒モデルでは,それぞれのミニバッチにおいて,教師モデルから推定される実環境データの音声と雑音を二つのパターンで交換・再混合することで,擬似的なノイジーペアデータを作成し,Noise2Noise 学習を行う.Re2Re は,技術評価国際イベント CHiME-7 Task2 のデータセットを用いた実験において,目的関数に関して有効性が確認されている一方,ベースラインとの厳密な比較のために,学習法に関しては統一されており,Re2Re に適した手法は検討されていない.本論文では,Re2Re のモデル学習において,再混合時の信号対雑音比やエポック数が性能に与える影響を明らかにし,学習法の改善を提案する. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In the use of deep learning for speech enhancement, supervised learning models that use pairs of clean speech and artificially generated (out-of-domain: OOD) noisy speech as training data tend to have lower performance against real-world recorded (in-domain) data with different data distributions. To alleviate this problem, Remixed2Remixed (Re2Re) has been proposed as a method to adapt the supervised learning model to recorded data. Re2Re utilizes the framework of self-distillation in which the supervised learning model is used as a teacher model, and a speech enhancement model for recorded data is trained as a student model. The student model is trained using Noise2Noise learning, where pseudo-noisy pair data is generated by shuffling and remixing the speech and noise estimated from the teacher model twice in each batch. The effectiveness of Re2Re was confirmed with datasets of CHiME-7 Task2. However, a baseline training recipe was used for rigorous control experiments on the training objective functions, but it was not optimal for Re2Re. In this paper, we clarify how the source-to-noise ratio during remixing and the number of training epochs affect the performance. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 49,
p. 1-6,
発行日 2024-02-22
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |