@techreport{oai:ipsj.ixsq.nii.ac.jp:00214086,
 author = {中田, 亘 and 郡山, 知樹 and 高道, 慎之介 and 齋藤, 佑樹 and 井島, 勇祐 and 増村, 亮 and 猿渡, 洋 and Wataru, Nakata and Tomoki, Koriyama and Shinnosuke, Takamichi and Yuki, Saito and Yusuke, Ijima and Ryo, Masumura and Hiroshi, Saruwatari},
 issue = {23},
 month = {Nov},
 note = {本研究では,Vector Quantized Variational AutoEncoder (VQVAE) を用いたキャラクター演技スタイルの抽出,及びそれを用いた多話者オーディオブック音声合成を提案する.声優によるオーディオブック音声では,登場人物の属性などにより異なるキャラクター演技スタイルが含まれため,オーディオブック音声合成においても異なるキャラクター演技スタイルを実現することが望まれる.一方で,テキスト情報のみから登場人物の属性と対応するキャラクター演技スタイルを推測することは困難である.そこで本研究では,音声からキャラクター演技スタイルを抽出しそれに基づく多話者オーディオブック音声合成を提案する.主観評価では,提案法を用いることにより,より原音声に近いキャラクター演技スタイルが実現できることが確認された., In this paper, we propose a method of extracting discrete character acting styles using vector quantized variational autoencoder (VQVAE) and multi-speaker audiobook speech synthesis based on extracted character acting styles. In audiobook corpora uttered by voice talents, the speech utterances contain acting depending on the character’s attributes. Such acting should also be contained in synthesized audiobooks. However, predicting proper acting style and character attributes is still a hard challenge. To this end, we propose a method for extracting character acting styles from audiobook speech and conditioning TTS models by the extracted character acting styles to synthesize speech with character acting. The subjective evaluation shows that the proposed method achieves a closer character acting style to the ground truth speech.},
 title = {VQVAEによって獲得されたキャラクター演技スタイルに基づく多話者オーディオブック音声合成},
 year = {2021}
}