@techreport{oai:ipsj.ixsq.nii.ac.jp:00226407, author = {小泉, 悠馬}, issue = {36}, month = {Jun}, note = {近年,拡散モデルを利用した画像や音の生成が注目を集めている.SNS などでは “徐々に雑音を除去し高精細な画像や音声を生成する手法” などと,さも簡単な手法であるかのように説明されることが多い.しかし,実際の論文では確率モデルや変分推論などの高度な数式を駆使しており,諦めてそっとブラウザを閉じてしまう方もいるだろう.なお,講演者もその一人であった.そこで本講演では,Ho らのノイズ除去拡散確率モデル(Denoising Diffusion Probabilistic Model)をボトムアップに説明する.具体的には,アルゴリズムの直感的な説明を行い,その後,アルゴリズムが論文のどの数式と結びついているのかを必要最低限の範囲で説明する.次いで,その音声波形生成の応用として,講演者らの最近の研究である SpecGrad と,それを不動点反復の観点から発展させた WaveFit,およびその音声復元への応用である Miipher を紹介する.}, title = {拡散モデルと反復型音声波形生成のやさしい解説}, year = {2023} }