Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
VQ-VAEに基づく解釈可能なアクセント潜在変数を用いた多方言音声合成 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション2 SP/SLP |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者名 |
山内, 一輝
齋藤, 佑樹
猿渡, 洋
|
著者名(英) |
Kazuki, Yamauchi
Yuki, Saito
Hiroshi, Saruwatari
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,目的話者の母方言と同じ方言のテキスト音声合成 (Text-to-Speech: TTS) を目的とする “Intra-dialect TTS” および,話者の声質を保ったまま目的話者の母方言と異なる方言の TTS を目的とする “Cross-dialect TTS” という 2 つのタスクに取り組む.従来法は,東京方言(標準語)を除く方言には入力テキストにアクセントラベルを付与するために必要なアクセント辞書が存在しないという困難を克服するため,アクセント潜在変数 (Accent Latent Variable: ALV) を参照音声から抽出するかテキストから予測して方言 TTS に利用する.しかし,従来法では参照音声は学習データに含まれる話者による音声に限られ,Cross-dialect TTS については検討されていない.本稿では,任意の話者による参照音声入力や方言に応じた ALV 予測が可能な多方言 TTS 手法を提案する.実験的評価により,提案手法が特に Cross-dialect TTS において合成音声の方言らしさを向上させることを示す. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 52,
p. 1-6,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |