WEKO3
アイテム
話者依存型 Conditional Restricted Boltzmann Machine による声質変換
https://ipsj.ixsq.nii.ac.jp/records/96748
https://ipsj.ixsq.nii.ac.jp/records/967480dcf4c82-0e33-44d0-bdce-09b20d61c670
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2100年1月1日からダウンロード可能です。
|
Copyright (c) 2013 by the Institute of Electronics, Information and Communication Engineers
This SIG report is only available to those in membership of the SIG. |
|
| SLP:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2013-12-12 | |||||||
| タイトル | ||||||||
| タイトル | 話者依存型 Conditional Restricted Boltzmann Machine による声質変換 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Speaker-dependent conditionl restricted Boltzmann machine for voice conversion | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | 声質変換 | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 神戸大学大学院システム情報学研究科 | ||||||||
| 著者所属 | ||||||||
| 神戸大学自然科学系先端融合研究環 | ||||||||
| 著者所属 | ||||||||
| 神戸大学自然科学系先端融合研究環 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of System Informatics, Kobe University | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Organization of Advanced Science and Technology, Kobe University | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Organization of Advanced Science and Technology, Kobe University | ||||||||
| 著者名 |
中鹿, 亘
滝口, 哲也
有木, 康雄
× 中鹿, 亘 滝口, 哲也 有木, 康雄
|
|||||||
| 著者名(英) |
Toru, Nakashika
Tetsuya, Takiguchi
Yasuo, Ariki
× Toru, Nakashika Tetsuya, Takiguchi Yasuo, Ariki
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 本研究では,元の音響特徴量空間よりも音韻性や時間変化性を抑え,話者性を強調させることによって,より入力話者音声の声質を出力話者のものへと変換しやすい話者依存空間を形成することを目的として,話者ごとに conditional restricted Boltzmann machine (CRBM) を用いた声質変換法を提案する.提案手法ではまず初めに,話者ごとに用意した学習データ (パラレルデータである必要は無い) を用いて,入力話者,出力話者の CRBM を独立に学習させる.次に,少量のパラレルデータの音響特徴量を,それぞれの CRBM を通して話者依存高次元空間へ写像 (CRBM の前方推論) し,その高次特徴量同士を Neural Network (NN) を用いて変換させる.NN の変換で得られた特徴量は,CRBM の後方推論によって元の音響特徴量へ逆変換することが可能である.評価実験では,従来の GMM や NN,DBN を用いた声質変換法に比べて,主観的にも客観的にも良い精度が得られたことを確認した. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | In this paper, we present a voice conversion (VC) method that utilizes conditional restricted Boltzmann machines (CRBMs) for each speaker to obtain time-invariant speaker-independent spaces where voice features are converted more easily than those in an original acoustic feature space. First, we train two CRBMs for a source and target speaker independently using speaker-dependent training data (without the need to parallelize the training data). Then, a small number of parallel data are fed into each CRBM and the high-order features produced by the CRBMs are used to train a concatenating neural network (NN) between the two CRBMs. Finally, the entire network (the two CRBMs and the NN) is fine-tuned using the acoustic parallel data. Through voice-conversion experiments, we confirmed the high performance of our method in terms of objective and subjective evaluations, comparing it with conventional GMM, NN, and speaker-dependent DBN approaches. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10442647 | |||||||
| 書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2013-SLP-99, 号 14, p. 1-6, 発行日 2013-12-12 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||