| Item type |
SIG Technical Reports(1) |
| 公開日 |
2016-07-21 |
| タイトル |
|
|
タイトル |
Deep Learningを利用した任意話者の声質変換 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声合成・声質変換 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
電気通信大学大学院情報システム学研究科 |
| 著者所属 |
|
|
|
電気通信大学大学院情報システム学研究科 |
| 著者所属 |
|
|
|
ソリッドスフィア株式会社 |
| 著者所属 |
|
|
|
電気通信大学大学院情報システム学研究科 |
| 著者所属 |
|
|
|
電気通信大学大学院情報システム学研究科 |
| 著者所属 |
|
|
|
電気通信大学大学院情報システム学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Systems, The University of Electro-Communications |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Systems, The University of Electro-Communications |
| 著者所属(英) |
|
|
|
en |
|
|
Solid Sphere, inc. |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Systems, The University of Electro-Communications |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Systems, The University of Electro-Communications |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Systems, The University of Electro-Communications |
| 著者名 |
関井, 祐介
折原, 良平
小島, 圭介
清, 雄一
田原, 康之
大須賀, 昭彦
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
声質変換手法として Gaussian Mixture Model(GMM) を用いた手法や Deep Neural Network(DNN) を用いた手法が研究されている.これらの多くは一対一の声質変換手法を提案しており,複数話者の入力に対応した研究は多くない.また,従来の DNN を用いた声質変換手法では,一対一変換および多対一変換において複雑なネットワークを用いるため,変換に要する時間が長くなるという問題がある.本研究では,複数話者の声質変換に対応するにあたり,オートエンコーダを用いた声質変換手法を提案する.提案手法では,オートエンコーダで次元圧縮した高次特徴量を目的話者の高次特徴量へ DNN で変換し,目的話者のオートエンコーダを用いて音響特徴量に復元する.評価実験では,従来の DNN を用いた声質変換手法より声質変換精度が向上し,変換に要する時間を短縮できたことを確認した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2016-SLP-112,
号 3,
p. 1-6,
発行日 2016-07-21
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |