| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-02-21 |
| タイトル |
|
|
タイトル |
音声対話システムのための入力音声の感情に同調する声質変換とx-vector埋め込みを用いたテキストからの音声合成方式の検討 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
An Investigation of Text-to-Speech Synthesis Using Voice Conversion and x-vector Embedding Sympathizing Emotion of Input Audio for Spoken Dialogue Systems |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP3:韻律・変換 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
岡山大学大学院ヘルスシステム統合科学研究科 |
| 著者所属 |
|
|
|
岡山大学大学院ヘルスシステム統合科学研究科 |
| 著者所属 |
|
|
|
岡山大学大学院ヘルスシステム統合科学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Interdisciplinary Science and Engineering in Health Systems, Okayama University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Interdisciplinary Science and Engineering in Health Systems, Okayama University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Interdisciplinary Science and Engineering in Health Systems, Okayama University |
| 著者名 |
小原, 俊一
阿部, 匡伸
原, 直
|
| 著者名(英) |
Shunichi, Kohara
Masanobu, Abe
Sunao, Hara
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本報告では,声質変換と x-vector 埋め込みを用いて,入力音声と同じ感情を表現する音声合成方式を提案する.音声対話システムでは,音声の非言語情報が重要となり,システムの応答合成音声はこれを欠くと無味乾燥となる.これを回避する1つのアプローチとして,人と人との対話で見られる対話相手の感情に合わせる,つまり,同調する方法を検討した.提案方式では,まず,ユーザの入力音声を音声対話システムの TTS モデルの話者に声質変換し,その後,埋め込みベクトルである x-vector を用いて感情音声合成をおこなう.評価実験では,合成音声の感情表現と自然性を評価した.実験結果から,TTS モデルの話者へと変換された音声の x-vector で感情の制御が可能であること,原音声から抽出した x-vector と比較して,変換音声の x-vector でも感情が付与された合成音声の自然性が損なわれないことが明らかとなった. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we propose a Text-to-Speech synthesis method to synthesize the same emotional expression as the input speech using voice convercion and x-vector embedding. In Spoken Dialogue Systems, nonverbal information in speech is important, and lack of the nonverbal information in speech reposes make the systems boring. To avoid the problem, we investigated a method that synthesize response speech with the same emotions extracted from input user’s speech. This is well known as sympathizing that is observed in conversations among human beings. First, the proposed method converted the user’s input speech to the TTS model speaker of spoken dialogue systems, and then it synthesizes an emotional speech with x-vector, embedding vectors. In evaluation experiments, we evaluated the emotional expression and naturalness of the synthesized speech. The experiment results showed that emotions can be controled by x-vector extracted from converted speech to the speaker of TTS model, and that the naturalness of the synthesized speech is not impaired even with x-vector of converted speech. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-146,
号 52,
p. 1-6,
発行日 2023-02-21
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |