Item type |
SIG Technical Reports(1) |
公開日 |
2021-11-24 |
タイトル |
|
|
タイトル |
感情次元の操作を目的とした声質変換手法の提案 |
タイトル |
|
|
言語 |
en |
|
タイトル |
An approach to voice conversion for manipulating emotion dimensions |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声合成 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
宇都宮大学大学院地域創生科学研究科 |
著者所属 |
|
|
|
宇都宮大学工学部 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Regional Development and Creativity, Utsunomiya University |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Engineering, Utsunomiya University |
著者名 |
向田, 圭汰
森, 大毅
|
著者名(英) |
Keita, Mukada
Hiroki, Mori
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
感情次元による連続的な感情表記法に基づいた声質変換手法を提案する.一般的な離散的な感情表記法に基づく感情の声質変換は,変換元と変換先の感情状態に対応するコーパスを用意して学習する.しかし,次元に基づく連続的な感情表記法ではデータセットを変換元と変換先に分割することはできない.本報告では,変換元と変換先の感情次元の差分をサンプリングにより生成することで声質変換モデルを学習する方法を提案する.このモデルは声質変換を担う Generator と変換音声の肉声らしさを検査する Discriminator の競合学習に基づく.Generator には音声の特徴量に加え変換先への感情次元の差分を入力する.Discriminator には音声の特徴量に加えその感情次元を入力し,音声の肉声らしさとその感情次元の妥当性を判別する. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We propose an emotional voice conversion method based on the emotion dimensions. Conventional emotional voice conversion assumes a dataset that consists of disjoint subsets of categorical emotion. However, it is impossible to divide the dataset into the source domain and the target domain when adopting the emotion dimensions. In this paper, we propose a method of constructing an emotional voice conversion model by the sampling of the difference to the target emotion over the dimensional space of emotion. The model is based on the competitive learning of the Generator that performs the voice conversion, and the Discriminator that assesses the genuineness of the converted speech. The Generator receives the speech features as well as the difference of emotion dimensions to the target emotional states. The Discriminator receives the speech features as well as the emotion dimensions of the speech, to check whether the emotion is being expressed by the input speech. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2021-SLP-139,
号 22,
p. 1-3,
発行日 2021-11-24
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |