| Item type |
SIG Technical Reports(1) |
| 公開日 |
2016-07-21 |
| タイトル |
|
|
タイトル |
時系列構造を考慮した行列変量混合正規分布モデルによる声質変換 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Modeling temporal structure in speech for MV-GMM based voice conversion |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声合成・声質変換 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京大学 |
| 著者所属 |
|
|
|
東京大学 |
| 著者所属 |
|
|
|
東京大学 |
| 著者所属 |
|
|
|
東京大学 |
| 著者名 |
内田, 秀継
楊, 奕
齋藤, 大輔
峯松, 信明
|
| 著者名(英) |
Hidetsugu, Uchida
Yi, Yang
Daisuke, Saito
Nobuaki, Minematsu
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,行列変量混合正規分布モデル (MV-GMM) を用いた声質変換における,特徴量の時系列特性のモデル化法について報告する.声質変換では,混合正規分布モデル (GMM) を用いた手法が,その扱い易さと拡張性の高さから広く用いられている.GMM 声質変換では,入力話者と出力話者の音声特徴量を結合ベクトルで表現し,その確率分布をモデル化する.その際に,当該フレームの前後フレームから導出される動的特徴量を各話者の特徴量にさらに結合することで,変換時に特徴量の時間方向の関係性を考慮することが可能となり,変換性能が向上する.MV-GMM を用いた声質変換では,入力話者と出力話者の特徴量を結合行列として表現することで,特徴量空間と話者空間を明示的に分離でき,それぞれの空間を適切にモデル化することができる.そこで,本稿では,MV-GMM 声質変換において特徴量の時間方向の関係性を考慮するために,時間的に連続した複数のフレームの特徴量を話者空間に沿って連結した結合行列を用いたモデル構築法と変換法を提案した.実験の結果,客観評価と主観評価のどちらにおいても,その有効性が示された. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2016-SLP-112,
号 4,
p. 1-6,
発行日 2016-07-21
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |