@techreport{oai:ipsj.ixsq.nii.ac.jp:00234692, author = {滝沢, 力 and 平井, 重行}, issue = {5}, month = {Jun}, note = {メディア作品などの音響制作では,様々な知識や経験が求められる.求めている音を想像し,それらの細かなニュアンスを言語非依存な発話により表現可能であることを元に,口真似音声から効果音合成可能な生成モデルを提案した.研究では,ひとまず,目標の効果音として多種多様なバリエーション・ニュアンスが存在する爆発音に焦点を当て,データセット構築及びモデルの学習,爆発音合成を試みた.これまでの学習済みモデルでは,口真似のニュアンスを結果に反映させた上で,高品質な爆発音合成が可能になっている.しかし,現状のデータセットは,一人の話者による口真似のみを録音しており,より表現の幅を考慮した合成を可能とするために,複数話者でのデータセット構築が必要である.そこで,複数話者による口真似録音を実施し,データセットの増強を行い,従来モデルとの比較を行った.データセットの話者数を増やすことで,話者毎に微妙に異なるニュアンスをより反映させた合成結果も得られ,提案モデルのニュアンス追従性向上を示唆した.本稿では,従来モデルと新たに構築したデータセットによる学習モデルとの比較で得られた合成音の品質差異について報告する.}, title = {複数話者の擬音的発話音声データセットによる効果音合成の試み}, year = {2024} }