@techreport{oai:ipsj.ixsq.nii.ac.jp:00218525, author = {西城, 耕平 and 小川, 哲司 and Kohei, Saijo and Tetsuji, Ogawa}, issue = {66}, month = {Jun}, note = {ブラインド音源分離 (BSS) の分離音と観測信号を教師信号として用いた Sequential Neural Beamformer (Seq-NBF) の教師なし学習法を提案する.近年,BSS を疑似教師とした teacher-student 学習による教師なし音源分離が提案されたが,教師信号が歪みを含むため性能には限界がある.一方,2 つの異なる観測信号の分離・再混合を繰り返して元の観測信号に近づくように学習を行う Unmix-Remix 無矛盾学習 (URCL) は,歪みを含まない観測信号そのものを教師信号として用いることができる.しかし,全く分離を行わない自明解が存在するためスクラッチから学習を行うのは困難である.本研究では,BSS を疑似教師として Seq-NBF を学習し,URCL でファインチューンする教師なし学習法を提案する.2 つの学習法を段階的に適用することで各学習法の長所を活かし短所を補うことを狙う.また,2 つの NBF をスタックした Seq-NBF の構成により,BSS を疑似教師とした学習において BSS を上回る性能が得られること,および URCL を用いたファインチューニングで性能が大きく改善することが期待される.音源分離実験より,提案法は疑似教師として用いた BSS を大きく上回る性能を達成し,教師あり学習にも匹敵する性能を与えることを確認した., We present an unsupervised training method of the sequential neural beamformer (Seq-NBF) using the separated signals from blind source separation (BSS) and observed mixtures as supervisory signals. Recently, separated signals of BSS have been used for training neural separators in an unsupervised manner. However, the performance is limited due to distortions in the supervision. In contrast, unmix-remix-consistent learning (URCL) utilizes distortion-free observed mixtures as the supervision, where we make remixed mixtures obtained by repeatedly separating and remixing two different mixtures closer to the original ones. Still, it is difficult to train separators from scratch with RCCL because it has a trivial solution of not separating signals. The present study provides a novel unsupervised learning algorithm for the Seq-NBF, where we first pre-train Seq-NBF with teacher-student learning with BSS and then fine-tune with URCL. By applying the two methods in stages, we make the most of their strengths and compensate for their weaknesses. We also expect that the configuration of Seq-NBF, which stacks two NBFs, will contribute to outperforming BSS in learning using the BSS outputs and boost the effectiveness of URCL-based fine-tuning. Experiments demonstrated that the proposed method significantly outperformed conventional BSS and achieved performance comparable to supervised learning (0.4 point difference in word error rate).}, title = {ブラインド音源分離の分離音と観測信号を教師信号として用いたSequential Neural Beamformerの教師なし学習}, year = {2022} }