@techreport{oai:ipsj.ixsq.nii.ac.jp:00226377, author = {齋藤, 佑樹 and 高道, 慎之介 and 飯森, 英治 and 橘, 健太郎 and 猿渡, 洋 and Yuki, Saito and Shinnosuke, Takamichi and Eiji, Iimori and Kentaro, Tachibana and Hiroshi, Saruwatari}, issue = {6}, month = {Jun}, note = {本稿では,ChatGPT を活用して対話の文脈情報を自動的に抽出する共感的対話音声合成 (empathetic dialogue speech synthesis: EDSS) の手法である “ChatGPT-EDSS” を提案する.ChatGPT は,入力プロンプトの内容と意図を深く理解し,ユーザからの要求に対して適切に応答可能な最先端の AI チャットボットの 1 つである.我々は ChatGPT の文章読解力に着目し,対話相手の感情を考慮して共感的な音声を生成する EDSS タスクに ChatGPT を導入する.提案法である ChatGPT-EDSS では,まず ChatGPT に対話履歴のテキストをプロンプトとして与え,各話者の発話に対して意図,感情,発話スタイルを表現する 3 つの語(ChatGPT 文脈語)を回答させる.次に,得られた文脈語の word embedding で deep neural network (DNN) ベースの EDSS モデルを条件付けして学習し,ChatGPT 由来の文脈語で韻律を制御可能な音声合成を実現する.実験的評価の結果から,人手でアノテーションされた感情ラベルや,対話履歴から DNN で抽出された文脈情報で EDSS モデルを条件付けする従来法と同程度の合成音声品質を提案法が達成できることを示す.本研究で収集した ChatGPT 文脈語は,我々のプロジェクトページ https://sarulab-speech.github.io/demo_ChatGPT_EDSS/ で公開している.}, title = {ChatGPT-EDSS: ChatGPT由来のContext Word Embeddingから学習される共感的対話音声合成モデル}, year = {2023} }