Item type |
SIG Technical Reports(1) |
公開日 |
2022-06-10 |
タイトル |
|
|
タイトル |
ブラインド音源分離の分離音と観測信号を教師信号として用いたSequential Neural Beamformerの教師なし学習 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Unsupervised Training of Sequential Neural Beamformer Using Blindly-separated and Non-separated Signals |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション4 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者名 |
西城, 耕平
小川, 哲司
|
著者名(英) |
Kohei, Saijo
Tetsuji, Ogawa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
ブラインド音源分離 (BSS) の分離音と観測信号を教師信号として用いた Sequential Neural Beamformer (Seq-NBF) の教師なし学習法を提案する.近年,BSS を疑似教師とした teacher-student 学習による教師なし音源分離が提案されたが,教師信号が歪みを含むため性能には限界がある.一方,2 つの異なる観測信号の分離・再混合を繰り返して元の観測信号に近づくように学習を行う Unmix-Remix 無矛盾学習 (URCL) は,歪みを含まない観測信号そのものを教師信号として用いることができる.しかし,全く分離を行わない自明解が存在するためスクラッチから学習を行うのは困難である.本研究では,BSS を疑似教師として Seq-NBF を学習し,URCL でファインチューンする教師なし学習法を提案する.2 つの学習法を段階的に適用することで各学習法の長所を活かし短所を補うことを狙う.また,2 つの NBF をスタックした Seq-NBF の構成により,BSS を疑似教師とした学習において BSS を上回る性能が得られること,および URCL を用いたファインチューニングで性能が大きく改善することが期待される.音源分離実験より,提案法は疑似教師として用いた BSS を大きく上回る性能を達成し,教師あり学習にも匹敵する性能を与えることを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We present an unsupervised training method of the sequential neural beamformer (Seq-NBF) using the separated signals from blind source separation (BSS) and observed mixtures as supervisory signals. Recently, separated signals of BSS have been used for training neural separators in an unsupervised manner. However, the performance is limited due to distortions in the supervision. In contrast, unmix-remix-consistent learning (URCL) utilizes distortion-free observed mixtures as the supervision, where we make remixed mixtures obtained by repeatedly separating and remixing two different mixtures closer to the original ones. Still, it is difficult to train separators from scratch with RCCL because it has a trivial solution of not separating signals. The present study provides a novel unsupervised learning algorithm for the Seq-NBF, where we first pre-train Seq-NBF with teacher-student learning with BSS and then fine-tune with URCL. By applying the two methods in stages, we make the most of their strengths and compensate for their weaknesses. We also expect that the configuration of Seq-NBF, which stacks two NBFs, will contribute to outperforming BSS in learning using the BSS outputs and boost the effectiveness of URCL-based fine-tuning. Experiments demonstrated that the proposed method significantly outperformed conventional BSS and achieved performance comparable to supervised learning (0.4 point difference in word error rate). |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2022-SLP-142,
号 66,
p. 1-6,
発行日 2022-06-10
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |