WEKO3
アイテム
混合複素ガウスモデルに基づく深層ベイズ音源分離
https://ipsj.ixsq.nii.ac.jp/records/197888
https://ipsj.ixsq.nii.ac.jp/records/197888ad82848c-ff46-48e0-9fdd-301ac8f71d4b
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2019 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2019-06-15 | |||||||||||
| タイトル | ||||||||||||
| タイトル | 混合複素ガウスモデルに基づく深層ベイズ音源分離 | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | ポスターセッション1 | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 産業技術総合研究所人工知能研究センター | ||||||||||||
| 著者所属 | ||||||||||||
| 産業技術総合研究所人工知能研究センター | ||||||||||||
| 著者所属 | ||||||||||||
| 理化学研究所AIP/京都大学情報学研究科 | ||||||||||||
| 著者名 |
坂東, 宜昭
× 坂東, 宜昭
× 佐々木, 洋子
× 吉井, 和佳
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 本稿では,多チャネル混合音のみを用いて,深層ニューラルネットワーク (DNN) に基づく音源分離を教師なし学習する枠組みについて述べる.従来の深層音源分離は,高い性能を得るために大量の教師データを必要とする.一方,空間情報に基づく多チャネル音源分離は,学習データが不要だがパラメータの初期値依存性や方向の近い音源で性能が劣化する.提案法は,各音源の時間周波数 (TF) マスクと到来方向 (DoA) を潜在変数にもつ混合複素ガウスモデル (cGMM) をコスト関数として,TF マスクを推定する分離 DNN とDoA を推定する定位 DNN を学習する.DoA を同時推論することで,空間モデルのパーミュテーション問題を統一的な枠組みで解決できる.さらに学習済みの分離 DNN は,単チャネル分離として動作するだけでなく,cGMM の多チャネル分離アルゴリズムに良い初期値を与えることができる.シミュレーション混合音を用いた評価により,従来の初期化法より信号対歪比が改善することを確認した. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN10442647 | |||||||||||
| 書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2019-SLP-127, 号 35, p. 1-5, 発行日 2019-06-15 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8663 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||