@techreport{oai:ipsj.ixsq.nii.ac.jp:00209769,
 author = {倉田, 将希 and 高道, 慎之介 and 佐伯, 高明 and 荒川, 陸 and 齋藤, 佑樹 and 樋口, 啓太 and 猿渡, 洋 and Masaki, Kurata and Shinnosuke, Takamichi and Takaaki, Saeki and Riku, Arakawa and Yuki, Saito and Keita, Higuchi and Hiroshi, Saruwatari},
 issue = {31},
 month = {Feb},
 note = {本稿では,音声変換ユーザに目標話者のキャラクタ性を獲得して発話させるためのシステムを提案する.深層学習に基づくリアルタイム音声変換は,人間の発声器官の物理制約を超えて,ユーザの音声から所望のキャタクタ性を持つ音声への高精度な変換を可能にしつつある.しかしながら,音声のパラ言語情報(抑揚・強勢など)の変換は未だ困難であり,ユーザの音声のパラ言語情報が変換音声に直接的に反映されてしまう.また,通常の発話において,人間は自己聴取音の聴取との相互作用により自らの言語情報・パラ言語情報を制御するが,リアルタイム音声変換を用いた発話において,そのような相互作用をもたらす機構は存在しない.そこで本稿では,変換音声をユーザにリアルタイムにフィードバックする自己聴取音制御システムにより,変換音声に所望のキャラクタ性を付与するようユーザを発話変容させるシステムを提案する.実験的評価では,一人称視点(音声変換ユーザ視点)と三人称視点においてシステムおよび変換音声を評価し,(1) 演技経験の少ないユーザに対してシステムの有用性が高いこと,(2) F0 を目標キャラクタに近づけるだけで十分な発話変容効果がみられることを示す.},
 title = {リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法},
 year = {2021}
}