Item type |
SIG Technical Reports(1) |
公開日 |
2018-07-19 |
タイトル |
|
|
タイトル |
非線形ひずみ除去のための敵対的denoising autoencoder |
タイトル |
|
|
言語 |
en |
|
タイトル |
Adversarial denoising autoencoder for non-linear distortion reduction |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SPオーガナイズドセッション(一般講演) |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
沖電気工業株式会社 |
著者所属 |
|
|
|
沖電気工業株式会社 |
著者所属 |
|
|
|
沖電気工業株式会社 |
著者所属 |
|
|
|
早稲田大学 |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
OKI Electric Industry Co., Ltd. |
著者所属(英) |
|
|
|
en |
|
|
OKI Electric Industry Co., Ltd. |
著者所属(英) |
|
|
|
en |
|
|
OKI Electric Industry Co., Ltd. |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者名 |
俵, 直弘
小林, 哲則
藤枝, 大
片桐, 一浩
矢頭, 隆
小川, 哲司
|
著者名(英) |
Naohiro, Tawara
Tetsunori, Kobayashi
Masaru, Fujieda
Kazuhiro, Katagiri
Takashi, Yazu
Tetsuji, Ogawa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
敵対的 denoising autoencoder (DAE) を用いて非線形ひずみを補正する手法を提案する.時間 ・ 周波数マスキングは目的音源と妨害音源を高精度に分離できるが,非線形信号処理特有の耳障りなひずみが生じることが知られている.そこで,シングルチャネル音声を対象とした音声強調において高い性能を達成している敵対的 DAE を用いて,非線形ひずみを含む音声からひずみを含まないクリーンな音声へのマッピングを学習することで,非線形ひずみを低減するフィルタを構築することを試みる.このとき,時間 ・ 周波数マスキングにより得られた信号では,妨害音源成分のみならず目的音源成分も抑圧されており,ひずみの低減のためには消失した目的音源成分を復元することが必要となる.そこで,音源分離前の観測信号や妨害音源情報を補助情報として敵対的 DAE に入力することで,消失した目的音源成分の復元を行うことを試みる.マルチチャネル音源分離実験により,提案するポストフィルタの有効性を評価したところ,時間 ・ 周波数マスキングの出力信号の非線形ひずみが低減され,音質が改善されることが示された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
A novel post-filtering method using generative adversarial networks (GANs) is proposed to correct the effect of a nonlinear distortion caused by time-frequency (TF) masking. TF masking is a powerful framework for attenuating interfering sounds, but it can yield an unpleasant distortion of speech (e.g., a musical noise). A GAN-based autoencoder was recently shown to be effective for single-channel speech enhancement, however, using this technique for the post-processing of TF masking cannot help in nonlinear distortion reduction because some TF components are missing after TF-masking. Furthermore, the missing information is difficult to recover using an autoencoder. In order to recover such missing components, a reference signal that includes the target source components is concatenated with an enhanced signal, is then used as the input to the GAN-based autoencoder. Experimental comparisons show that the proposed post-filtering yields improvements in speech quality over TF-masking. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2018-SLP-123,
号 1,
p. 1-7,
発行日 2018-07-19
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |