WEKO3
アイテム
深層生成モデルと信号の独立性に基づく多チャンネル音源分離
https://ipsj.ixsq.nii.ac.jp/records/224415
https://ipsj.ixsq.nii.ac.jp/records/224415d1c348af-ee2b-4898-b0ea-c5dfb8fe3bb5
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2023 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
|
|
SLP:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2023-02-21 | |||||||
タイトル | ||||||||
タイトル | 深層生成モデルと信号の独立性に基づく多チャンネル音源分離 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Multichannel Audio Source Separation Based on Deep Generative Model and Signal Independence | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 招待講演2 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
株式会社サイバーエージェント AI Lab | ||||||||
著者所属(英) | ||||||||
en | ||||||||
AI Lab, Cyberagent, Inc. | ||||||||
著者名 |
李, 莉
× 李, 莉
|
|||||||
著者名(英) |
Li, Li
× Li, Li
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 独立成分分析(Independent component analysis: ICA)や独立ベクトル分析(Independent vector analysis: IVA)をはじめとする信号の独立性に基づく多チャンネル音源分離手法は,事前学習要らずに高い分離性能を達成できることや,計算効率のいいアルゴリズムが数多く提案されているため,多くの注目を集めている.その中でも,非負値行列因子分解を単一音源のスペクトログラムのモデリングに用いた独立低ランク行列分析(Independent low-rank matrix analysis: ILRMA)は,IVA のランク1音源モデルをより正確なスペクトログラム表現である低ランク表現に拡張し,様々なタスクにおいて最高の分離性能を達成し,音源モデルの表現力の重要性を示した.一方,深層学習の台頭により,音源のスペクトログラムを表現するニューラルネットワーク(Neural networks: NNs)を大量のデータから自動的に学習することが可能になり,音声強調や音声合成でブレイクスルーをもたらしている.深層生成モデル(Deep generative model: DGM)はその一種であり,NN で高次元のスペクトログラムの生成モデルを学習することで,本物らしく高精細なスペクトログラムを生成することが可能になる.近年,DGM の柔軟かつ高いスペクトログラムの表現能力に着目し,従来の音源分離手法にDGM を音源モデルとして利用する手法が複数提案された.本発表では,DGMの一種である変分自己符号化器を ILRMA に導入した手法(Multichannel variational autoencoder: MVAE)に焦点を当て,DGM と信号の独立性に基づく多チャンネル音源分離手法の現状と課題について紹介する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Multichannel audio source separation methods based on signal independence, e.g., Independent Component Analysis (ICA) and Independent Vector Analysis (IVA), have attracted much attention due to the high separation performance and many existing computationally efficient algorithms. Among them, Independent Low-Rank Matrix Analysis (ILRMA) has been proposed to utilize non-negative matrix factorization (NMF) to model the spectrogram of each single source. It extends the rank-1 source model of IVA to a low-rank representation, a more accurate spectrogram representation, achieving the best separation performance on various tasks. This fact demonstrates the importance of accurate source models in separation performance. Meanwhile, the rise of deep learning has led to breakthroughs in the field of speech enhancement and synthesis, as neural networks (NNs) representing the audio spectrogram can be trained from large amounts of data. Deep Generative Model (DGM) is one of the main branches that uses NNs to learn generative models of high-dimensional spectrograms, enabling the generation of realistic, high-definition spectrograms. Recently, motivated by the flexible and high spectrogram representation capability of DGMs, several methods have been proposed to use DGMs as source models in conventional separation methods. In this talk, we will present the current status and challenges of multichannel source separation methods using DGM and signal independence by introducing the Multichannel Variational Autoencoder (MVAE) method as an example. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2023-SLP-146, 号 18, p. 1-1, 発行日 2023-02-21 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 2188-8663 | |||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |