Item type |
SIG Technical Reports(1) |
公開日 |
2023-06-16 |
タイトル |
|
|
タイトル |
ChatGPT-EDSS: ChatGPT由来のContext Word Embeddingから学習される共感的対話音声合成モデル |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
LINE株式会社 |
著者所属 |
|
|
|
東京大学 |
著者名 |
齋藤, 佑樹
高道, 慎之介
飯森, 英治
橘, 健太郎
猿渡, 洋
|
著者名(英) |
Yuki, Saito
Shinnosuke, Takamichi
Eiji, Iimori
Kentaro, Tachibana
Hiroshi, Saruwatari
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,ChatGPT を活用して対話の文脈情報を自動的に抽出する共感的対話音声合成 (empathetic dialogue speech synthesis: EDSS) の手法である “ChatGPT-EDSS” を提案する.ChatGPT は,入力プロンプトの内容と意図を深く理解し,ユーザからの要求に対して適切に応答可能な最先端の AI チャットボットの 1 つである.我々は ChatGPT の文章読解力に着目し,対話相手の感情を考慮して共感的な音声を生成する EDSS タスクに ChatGPT を導入する.提案法である ChatGPT-EDSS では,まず ChatGPT に対話履歴のテキストをプロンプトとして与え,各話者の発話に対して意図,感情,発話スタイルを表現する 3 つの語(ChatGPT 文脈語)を回答させる.次に,得られた文脈語の word embedding で deep neural network (DNN) ベースの EDSS モデルを条件付けして学習し,ChatGPT 由来の文脈語で韻律を制御可能な音声合成を実現する.実験的評価の結果から,人手でアノテーションされた感情ラベルや,対話履歴から DNN で抽出された文脈情報で EDSS モデルを条件付けする従来法と同程度の合成音声品質を提案法が達成できることを示す.本研究で収集した ChatGPT 文脈語は,我々のプロジェクトページ https://sarulab-speech.github.io/demo_ChatGPT_EDSS/ で公開している. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-147,
号 6,
p. 1-6,
発行日 2023-06-16
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |