ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2024
  4. 2024-SLP-151

Remixed2Remixedを用いた音声強調のモデル学習法の改善

https://ipsj.ixsq.nii.ac.jp/records/232519
https://ipsj.ixsq.nii.ac.jp/records/232519
a56d808a-855e-40a9-ade2-01ab5bc1b56a
名前 / ファイル ライセンス アクション
IPSJ-SLP24151049.pdf IPSJ-SLP24151049.pdf (932.2 kB)
Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-02-22
タイトル
タイトル Remixed2Remixedを用いた音声強調のモデル学習法の改善
タイトル
言語 en
タイトル Improving training recipe of Remixed2Remixed for speech enhancement
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション2 SP/SLP
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
株式会社サイバーエージェントAI Lab
著者所属
株式会社サイバーエージェントAI Lab
著者所属(英)
en
AI Lab, Cyberagent, Inc.
著者所属(英)
en
AI Lab, Cyberagent, Inc.
著者名 李, 莉

× 李, 莉

李, 莉

Search repository
関, 翔悟

× 関, 翔悟

関, 翔悟

Search repository
著者名(英) Li, Li

× Li, Li

en Li, Li

Search repository
Shogo, Seki

× Shogo, Seki

en Shogo, Seki

Search repository
論文抄録
内容記述タイプ Other
内容記述 深層学習を用いた音声強調において,ノイジー音声とクリーン音声のペアを学習データとする教師あり学習モデルは,学習データと異なる分布を持つ実環境データに対して強調性能が低下する傾向がある.この問題を緩和するために,教師あり学習モデルを実環境データのドメインに適用させる手法として,Remixed2Remixed(Re2Re)が提案された.Re2Re では,自己蒸留の枠組みに基づいて,教師あり学習モデルを教師モデルとして利用し,実環境データに対する音声強調モデルを生徒モデルとして学習する.生徒モデルでは,それぞれのミニバッチにおいて,教師モデルから推定される実環境データの音声と雑音を二つのパターンで交換・再混合することで,擬似的なノイジーペアデータを作成し,Noise2Noise 学習を行う.Re2Re は,技術評価国際イベント CHiME-7 Task2 のデータセットを用いた実験において,目的関数に関して有効性が確認されている一方,ベースラインとの厳密な比較のために,学習法に関しては統一されており,Re2Re に適した手法は検討されていない.本論文では,Re2Re のモデル学習において,再混合時の信号対雑音比やエポック数が性能に与える影響を明らかにし,学習法の改善を提案する.
論文抄録(英)
内容記述タイプ Other
内容記述 In the use of deep learning for speech enhancement, supervised learning models that use pairs of clean speech and artificially generated (out-of-domain: OOD) noisy speech as training data tend to have lower performance against real-world recorded (in-domain) data with different data distributions. To alleviate this problem, Remixed2Remixed (Re2Re) has been proposed as a method to adapt the supervised learning model to recorded data. Re2Re utilizes the framework of self-distillation in which the supervised learning model is used as a teacher model, and a speech enhancement model for recorded data is trained as a student model. The student model is trained using Noise2Noise learning, where pseudo-noisy pair data is generated by shuffling and remixing the speech and noise estimated from the teacher model twice in each batch. The effectiveness of Re2Re was confirmed with datasets of CHiME-7 Task2. However, a baseline training recipe was used for rigorous control experiments on the training objective functions, but it was not optimal for Re2Re. In this paper, we clarify how the source-to-noise ratio during remixing and the number of training epochs affect the performance.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2024-SLP-151, 号 49, p. 1-6, 発行日 2024-02-22
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 10:25:14.891949
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3