@techreport{oai:ipsj.ixsq.nii.ac.jp:00216617, author = {西邑, 勇人 and 齋藤, 佑樹 and 高道, 慎之介 and 橘, 健太郎 and 猿渡, 洋 and Yuto, Nishimura and Yuki, Saito and Shinnosuke, Takamichi and Kentaro, Tachibana and Hiroshi, Saruwatari}, issue = {16}, month = {Feb}, note = {本稿では,対話履歴の言語・韻律情報を考慮し,対話相手に寄り添った発話を合成可能な共感的対話音声合成の手法を提案する.音声コミュニケーションにおいて人間は,対話の言語的・韻律的特徴から文脈を理解し,適切な韻律で対話相手に応答できる.しかし,この振る舞いをどのように計算機的に模擬し,音声合成に取り入れるかは詳細に検討されていない.提案法は,対話相手とエージェントの発話テキストと音声からクロスモーダル注意機構により推定される対話文脈埋め込みベクトルで音声合成の音響モデルを条件付けする.本研究ではさらに,対話履歴の文脈を考慮した学習を容易にするためのカリキュラム学習も検討する.実験的評価の結果より,提案法が従来法と比較して合成音声の発話自然性・対話自然性の両方を改善させることを示す.}, title = {対話履歴の韻律情報を考慮した共感的対話音声合成}, year = {2022} }