WEKO3
アイテム
HMM音声合成における自然性と個人性に優れた韻律モデル適応法の検討
https://ipsj.ixsq.nii.ac.jp/records/67649
https://ipsj.ixsq.nii.ac.jp/records/676497328cbe0-94fe-4eb3-9b39-a062b9c9faae
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-02-05 | |||||||
タイトル | ||||||||
タイトル | HMM音声合成における自然性と個人性に優れた韻律モデル適応法の検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Prosody Adaptation Method for HMM-based Speech Synthesis Achieving High Naturalness and Individurity | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 韻律,音響特徴 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京工業大学情報理工学研究科計算工学専攻 | ||||||||
著者所属 | ||||||||
東京工業大学情報理工学研究科計算工学専攻 | ||||||||
著者所属 | ||||||||
東京都市大学環境情報学部情報メディア学科 | ||||||||
著者所属 | ||||||||
東京工業大学情報理工学研究科計算工学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faclty of Environmental and Information Studies, Tokyo City University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Tokyo Institute of Technology | ||||||||
著者名 |
神山, 歩相名
× 神山, 歩相名
|
|||||||
著者名(英) |
Hosana, Kamiyama
× Hosana, Kamiyama
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,HMM 音声合成における音素継続時間長モデルの話者適応法を提案する.提案手法は,数量化I類に基づくモデルの平均値を変換することで適応化を行う.客観評価実験を行ったところ,提案手法は 5 文程度で適応効果が収束することが確認された.また主観評価実験を行ったところ,5 文で適応したモデルと 470 文で学習したモデルでほぼ同程度の自然性と個人性が認められた.さらに,音素継続時間長モデル,F0 パターン生成モデルを平均値変換によって適応し,ケプストラムモデルを SMAPLR 適応したモデルから音声合成を行い主観評価実験を行った.その結果,20 文で話者適応したモデルによる音声と 470 文で学習したモデルによる音声に,ほぼ同程度の自然性と個人性が認められた.これより,提案手法が自然性と個人性に優れた韻律モデル適応法であることが確認された. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a phoneme duration adaptation method for HMM-based speech synthesis. The proposed method converts mean values of the duration models based on the Quantification Theory (Type I). Objective evaluation results for the models made by the adaptation method confirm that around five sentences are enough for adaptation. Subjective evaluation results confirm that naturalness and inviduality of the synthesized speech using models adapted by five sentences is almost equivalent to that of the synthesized speech using models trained by 470 sentences for a specific speaker. Finally, we synthesized speech using F0 contour generation models, duration models made by the mean adaptation method and cepstrum HMM adapted by the SMAPLR method. Subjective evaluation results confirm that naturalness and inviduality of the synthesized speech using models adapted using 20 sentences is almost equivalent to that of the synthesized speech using models trained by 470 sentences for a specific speaker. These results indicate that the proposed method for the prosody models can effectively produce synthesized speech with naturalness and inviduality. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2010-SLP-80, 号 12, p. 1-6, 発行日 2010-02-05 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |