WEKO3
アイテム
声質変換のためのスペクトル・F0 の同時モデリング
https://ipsj.ixsq.nii.ac.jp/records/56771
https://ipsj.ixsq.nii.ac.jp/records/5677158543c94-f539-46cc-8e30-966756984186
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-12-20 | |||||||
タイトル | ||||||||
タイトル | 声質変換のためのスペクトル・F0 の同時モデリング | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Simultaneous Modeling of Spectrum and F0 for Voice Conversion | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科情報工学専攻 | ||||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科情報工学専攻 | ||||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科情報工学専攻 | ||||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科情報工学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Depertment of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Depertment of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Depertment of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Depertment of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者名 |
宇藤陽介
× 宇藤陽介
|
|||||||
著者名(英) |
Yosuke, UTO
× Yosuke, UTO
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 声質変換とは,ある話者が発した音声を別の話者が発したかのような音声に変換する技術であり,任意の音声を合成する音声合成システムよりも少量の学習データで実現可能である.従来の声質変換ではスペクトルをガウス混合モデル (Gaussian Mixture Model; GMM) でモデル化し,非線形に変換する手法が広く用いられる.しかし,F0 の変換に関してはスペクトルとは独立に線形変換が用いられることが多かった.これは,F0 が有声区間のみで定義されており,無声区間では値を持たず,系列全体を通常の連続分布や離散分布でモデル化することが容易ではないためである.本報告では,多空間上の確率分布 (Multi-Space Probability Distribution; MSD) に基づく GMM (MSD-GMM) を用いたスペクトルと F0 の同時変換手法を提案する.提案法では,F0 の非線形変換が可能になるだけでなく,有声から無声や無声から有声への変換も可能となる.さらに本研究では,F0 の時間方向の変動をモデル化するために MSD-HMM への拡張を検討する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a simultaneous modeling spectrum and F0 for voice conversion based on MSD (Multi-Space Probability Distribution) models. In conventional voice conversion, the spectral conversion technique based on GMM (Gaussian Mixture Model) has been proposed. Although spectral feature sequences are nonlinearly converted based on GMM, F0 sequences are converted by a simple linear function. This is because F0 is undefined in unvoiced seguments; therefore F0 sequences cannot be modeled by neither continuous nor discrete distributions. To overcome this problem, we apply MSD-GMM to the voice conversion. The MSD-GMM allows to model continuous F0 values in voice frames and discrete symbol representing unvoiced frames in a unified framework. Futhermore, the MSD-HMM is adopted to model a long time dependency in F0 sequences. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2007, 号 129(2007-SLP-069), p. 103-108, 発行日 2007-12-20 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |