@techreport{oai:ipsj.ixsq.nii.ac.jp:00209746, author = {戸上, 真人 and Masahito, Togami}, issue = {8}, month = {Feb}, note = {深層学習ベースの音源分離の進化が著しいが,ニューラルネットワーク (NN) は空間モデルとは独立に学習されることが多い.しかし,そのような構成で学習された NN は,空間モデルを用いて音源分離を行う構成において本当に最適であるといえるのかという疑問が残る.本講演では従来の統計モデルに基づく音源分離および深層学習を用いた音源分離の研究の流れを示すと共に,深層学習を用いた音源分離に空間モデルを取り込み,NN を空間モデルを考慮して学習する方法として近年著者らが進めている 4 つの方向性,1) 空間モデルの影響を考慮した NN の損失関数,2) NN の構造の中に空間モデルを用いた音源分離を埋め込む方法,3) 所望音源の到来方向の情報をアトラクタとして用いて音源分離に必要なパラメータを推定するフレームワーク,4) 統計モデルに基づく音源分離法を疑似教師信号生成機として用いる教師無し NN 学習法を紹介する., Recently, deep learning based speech source separation has been evolved rapidly. A neural network (NN) is usually learned independently of a spatial model. However, a research question remains whether the NN that is trained such as configuration is really optimal when speech source separation is performed with the spatial model. In this talk, I will introduce conventional statistical model based speech source separation and deep learning based speech source separation. After that, I will introduce four research directions which incorporate a spatial model into the NN structure, i.e. 1) Loss function of the NN that considers the spatial model, 2) Insertion of speech source separation with the spatial model into the NN structure, 3) A NN framework which estimates parameters for speech source separation with a direction-of-arrival attractor, and 4) Unsupervised learning of NN which utilizes statistical model based speech source separation as a pseudo clean signal generator.}, title = {空間モデルを考慮した深層学習ベースの音源分離}, year = {2021} }