WEKO3
アイテム
拡散モデルと反復型音声波形生成のやさしい解説
https://ipsj.ixsq.nii.ac.jp/records/226407
https://ipsj.ixsq.nii.ac.jp/records/22640782b5096a-2fdb-450a-b414-7a7e90a5ca63
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2023-06-16 | |||||||
| タイトル | ||||||||
| タイトル | 拡散モデルと反復型音声波形生成のやさしい解説 | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | 招待講演5 | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| Google Research | ||||||||
| 著者名 |
小泉, 悠馬
× 小泉, 悠馬
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 近年,拡散モデルを利用した画像や音の生成が注目を集めている.SNS などでは “徐々に雑音を除去し高精細な画像や音声を生成する手法” などと,さも簡単な手法であるかのように説明されることが多い.しかし,実際の論文では確率モデルや変分推論などの高度な数式を駆使しており,諦めてそっとブラウザを閉じてしまう方もいるだろう.なお,講演者もその一人であった.そこで本講演では,Ho らのノイズ除去拡散確率モデル(Denoising Diffusion Probabilistic Model)をボトムアップに説明する.具体的には,アルゴリズムの直感的な説明を行い,その後,アルゴリズムが論文のどの数式と結びついているのかを必要最低限の範囲で説明する.次いで,その音声波形生成の応用として,講演者らの最近の研究である SpecGrad と,それを不動点反復の観点から発展させた WaveFit,およびその音声復元への応用である Miipher を紹介する. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10442647 | |||||||
| 書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2023-SLP-147, 号 36, p. 1-1, 発行日 2023-06-16 |
|||||||
| ISSN | ||||||||
| 収録物識別子タイプ | ISSN | |||||||
| 収録物識別子 | 2188-8663 | |||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||