Item type |
SIG Technical Reports(1) |
公開日 |
2021-11-24 |
タイトル |
|
|
タイトル |
VQVAEによって獲得されたキャラクター演技スタイルに基づく多話者オーディオブック音声合成 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Multi-speaker Audiobook Speech Synthesis using Discrete Character Acting Styles Acquired by VQVAE |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声合成 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
東京大学 |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者名 |
中田, 亘
郡山, 知樹
高道, 慎之介
齋藤, 佑樹
井島, 勇祐
増村, 亮
猿渡, 洋
|
著者名(英) |
Wataru, Nakata
Tomoki, Koriyama
Shinnosuke, Takamichi
Yuki, Saito
Yusuke, Ijima
Ryo, Masumura
Hiroshi, Saruwatari
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,Vector Quantized Variational AutoEncoder (VQVAE) を用いたキャラクター演技スタイルの抽出,及びそれを用いた多話者オーディオブック音声合成を提案する.声優によるオーディオブック音声では,登場人物の属性などにより異なるキャラクター演技スタイルが含まれため,オーディオブック音声合成においても異なるキャラクター演技スタイルを実現することが望まれる.一方で,テキスト情報のみから登場人物の属性と対応するキャラクター演技スタイルを推測することは困難である.そこで本研究では,音声からキャラクター演技スタイルを抽出しそれに基づく多話者オーディオブック音声合成を提案する.主観評価では,提案法を用いることにより,より原音声に近いキャラクター演技スタイルが実現できることが確認された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we propose a method of extracting discrete character acting styles using vector quantized variational autoencoder (VQVAE) and multi-speaker audiobook speech synthesis based on extracted character acting styles. In audiobook corpora uttered by voice talents, the speech utterances contain acting depending on the character’s attributes. Such acting should also be contained in synthesized audiobooks. However, predicting proper acting style and character attributes is still a hard challenge. To this end, we propose a method for extracting character acting styles from audiobook speech and conditioning TTS models by the extracted character acting styles to synthesize speech with character acting. The subjective evaluation shows that the proposed method achieves a closer character acting style to the ground truth speech. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
書誌情報 |
研究報告自然言語処理(NL)
巻 2021-NL-251,
号 23,
p. 1-6,
発行日 2021-11-24
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |