Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
IVAとDNNを近接平均化した優決定BSSに用いるDNNのアーキテクチャの比較 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Comparison of DNN architectures for determined BSS by proximal average of IVA and DNN |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション1 SIP/EA |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学基幹理工学部;東京農工大学工学部 |
著者所属 |
|
|
|
東京農工大学工学部 |
著者所属(英) |
|
|
|
en |
|
|
School of Fundamental Science and Engineering, Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Engineering, Tokyo University of Agriculture and Technology |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Engineering, Tokyo University of Agriculture and Technology |
著者名 |
松本, 和樹
山田, 宏樹
矢田部, 浩平
|
著者名(英) |
Kazuki, Matsumoto
Koki, Yamada
Kohei, Yatabe
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
我々はこれまで,Plug-and-Play と近接平均(PA)の枠組みに基づき,深層ニューラルネットワーク(DNN)による雑音除去器を用いて高性能な分離行列推定を実現するフレームワーク(PA-BSS)を提案した.PA-BSS は,独立ベクトル分析(IVA)と DNN の近接平均を主双対近接分離(PDS)アルゴリズムに Plug-and-Play することで,IVA の安定した分離能力と DNN の緻密な音源モデリング能力を両立した音源分離を実現する.しかし,どのような DNNを用いれば高い分離性能が得られ,アルゴリズムが良好な収束性を示すのかに関しては十分な検討がなされていない.そこで本稿では,2 種類の推定器と 3 種類の推定対象を用いた計 6 種類の DNN を用いて PA-BSS による音源分離を試み,各 DNN の性質とそれらを用いた PA-BSS の性能を評価した.推定器に関しては(1) Encoder-Decoder 型の Fully Convolutional Network,(2)U-Net の 2 種類を用いた.また,それらの推定対象に関しては,(1)目的音の振幅,(2)雑音成分の振幅,(3)目的音抽出マスクの 3 種類を比較した.結果として,U-Net により雑音成分を推定するアーキテクチャが分離性能,頑健性,アルゴリズムの収束性の観点で優れることが分かった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We have proposed a framework called PA-BSS for high-performance separation matrix estimation using deep denoisers based on the framework of plug-and-play and proximal average (PA). By plug-and-play of proximal average of IVA and DNN into the primal-dual splitting (PDS) algorithm, PA-BSS achieves source separation that combines the stable separation capability of IVA with the detailed source modeling capability of DNNs. However, what kind of DNNs can achieve high separation performance and preferable algorithm convergence has not been thoroughly investigated. In this paper, we explore the properties of six different DNNs which are the conbinations of two estimators and three estimation targets. The two estimators are (1) encoder-decoder type fully convolutional networks and (2) U-Net. As for the estimation targets, we use (1) the amplitude of the target source, (2) the amplitude of noise components, and (3) the time-frequency mask which extracts the target source. Then, we evaluate the separation performance of PA-BSS with those DNNs. As a result, we found that the architecture that estimates noise components using U-Net is superior in terms of separation performance, robustness, and algorithm convergence. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 42,
p. 1-6,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |