| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-11-25 |
| タイトル |
|
|
タイトル |
拡散モデルを用いた音声強調の計算量削減 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
モデルとデータ活用 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京工業大学 |
| 著者所属 |
|
|
|
東京都市大学 |
| 著者所属 |
|
|
|
東京工業大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Tokyo Insutitute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Tokyo City University |
| 著者所属(英) |
|
|
|
en |
|
|
Tokyo Insutitute of Technology |
| 著者名 |
西, 悠希
岩野, 公司
篠田, 浩一
|
| 著者名(英) |
Yuki, Nishi
Koji, Iwano
Koichi, Shinoda
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年拡散モデルと呼ばれる生成モデルが注目されている.GAN と比べ,拡散モデルは安定に学習できるが,生成段階の計算コストが大きいという問題点がある.この傾向は音声強調への拡散モデルの応用に関しても同様である.本稿では,音声強調のための拡散モデルにおいて,Encoder,Decoder を用いることによる潜在空間にて音声信号を圧縮し,圧縮された信号から拡散モデルにより雑音を除去することで,精度を保ちつつ計算コストの削減することが可能なことを示す.雑音と音声を同時に用いる訓練で Encoder,Decoder を学習した結果,PESQ を低下させずに生成時間を 50% 以上減少させることに成功した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-149,
号 4,
p. 1-6,
発行日 2023-11-25
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |