| Item type |
SIG Technical Reports(1) |
| 公開日 |
2018-11-14 |
| タイトル |
|
|
タイトル |
交互学習と多層化によるニューラルネットワークビームフォーマの音声歪み低減の検討 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Improvement of speech distortion caused by multi-layered neural network-based beamformer with alternative training |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
九州工業大学大学院工学府 |
| 著者所属 |
|
|
|
九州工業大学大学院工学研究院 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, Kyushu Institute of Technology, |
| 著者所属(英) |
|
|
|
en |
|
|
Faculty of Engineering, Kyushu Institute of Technology |
| 著者名 |
江口, 航平
水町, 光徳
|
| 著者名(英) |
Kouhei, Eguchi
Mitsunori, Mizumachi
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
ニューラルネットワークピームフォーマは,目的方向と非目的方向の同時制御が可能であるため,線形演算による遅延和ピームフオーマと比較して雑音抑圧性能が高い.一般に,非線形活性化関数を用いるニューラルネットワークビームフォーマは,出力信号に非線形歪みが生じる.著者らは,この非線形歪みを低減するために,従来の指向特性に基づくコスト関数に加えて,新たにスペクトル歪みに基づくコスト関数を導入し,それらを交互に用いてネットワークの学習を行うピームフォーマを提案した.交互学習ビームフォーマは,信号対雑音比とスペクトル歪みの両評価尺度において,従来のニューラルネットワークピームフォーマに対する優位性は小さかった.本稿では,交互学習ピームフオーマのネットワーク層数を 3 層から 4 層, 5 層へと変化させた場合,またネットワークの学習方法を変更した場合の性能について検討した.その結果,信号対雑音比とスペクトル歪みの両評価尺度において,ネットワーク層数は 5 層が最も望ましいことがわかった.また,学習方法に関しては,コスト関数を用いる順序と学習回数の関係について更なる検討が必要であることがわかった. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
A neural network-based beamformer can simultaneously optimize its beam-pattern at the desired and undesired directions so that it enables noise reduction more efficiently compared with a conventional delay-and-sum beamformer with the linear signal processing. In general, the neural network-based beamformer causes the annoying non-linear distortion on the output signal due to the non-linear activation functions. The authors previously proposed a distortion-less neural network-based beamformer with the dual cost functions based on the directivity and spectral distortion. The beamformer was alternatively trained with either the directivity-based or spectral distortion-based cost functions. The proposed beamformer was slightly superior to the conventional non-linear beamformer in the viewpoints of the signal-to-noise ration and spectral distortion. In this paper, the number of the network layers is increased from three to four and five, and the training scheme is reconsidered in training the neural network. It is found that the neural network-based beamformer with five layers achieves the highest performance. Concerning the training scheme, it is necessary to carefully investigate the relationship between the training order with the dual cost functions and the number of iteration. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
| 書誌情報 |
研究報告音楽情報科学(MUS)
巻 2018-MUS-121,
号 2,
p. 1-6,
発行日 2018-11-14
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |