@techreport{oai:ipsj.ixsq.nii.ac.jp:00232522,
 author = {山内, 一輝 and 齋藤, 佑樹 and 猿渡, 洋 and Kazuki, Yamauchi and Yuki, Saito and Hiroshi, Saruwatari},
 issue = {52},
 month = {Feb},
 note = {本稿では，目的話者の母方言と同じ方言のテキスト音声合成 (Text-to-Speech: TTS) を目的とする “Intra-dialect TTS” および，話者の声質を保ったまま目的話者の母方言と異なる方言の TTS を目的とする “Cross-dialect TTS” という 2 つのタスクに取り組む．従来法は，東京方言（標準語）を除く方言には入力テキストにアクセントラベルを付与するために必要なアクセント辞書が存在しないという困難を克服するため，アクセント潜在変数 (Accent Latent Variable: ALV) を参照音声から抽出するかテキストから予測して方言 TTS に利用する．しかし，従来法では参照音声は学習データに含まれる話者による音声に限られ，Cross-dialect TTS については検討されていない．本稿では，任意の話者による参照音声入力や方言に応じた ALV 予測が可能な多方言 TTS 手法を提案する．実験的評価により，提案手法が特に Cross-dialect TTS において合成音声の方言らしさを向上させることを示す．},
 title = {VQ-VAEに基づく解釈可能なアクセント潜在変数を用いた多方言音声合成},
 year = {2024}
}