WEKO3
アイテム
分散共有フルコンテキストモデルによるHMM音声合成に関する検討
https://ipsj.ixsq.nii.ac.jp/records/82941
https://ipsj.ixsq.nii.ac.jp/records/8294131811f09-3147-4293-909e-2a15278bc2c1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2012 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2012-07-12 | |||||||
タイトル | ||||||||
タイトル | 分散共有フルコンテキストモデルによるHMM音声合成に関する検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Study on HMM-Based Speech Synthesis Using Rich Context Models | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 話者・分析・合成 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
NICT | ||||||||
著者所属 | ||||||||
KDDI | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NICT | ||||||||
著者所属(英) | ||||||||
en | ||||||||
KDDI | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者名 |
高道, 慎之介
× 高道, 慎之介
|
|||||||
著者名(英) |
Shinnosuke, Takamichi
× Shinnosuke, Takamichi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 隠れマルコフモデル(Hidden Markov Model:HMM)に基づく音声合成において,生成される音声パラメータは過剰に平滑化される傾向にあり,肉声感の低い音声が合成される.この問題を改善するために,HMM音声合成と素片選択型合成のハイブリッド法がいくつか提案されている.波形素片の使用により,合成音声の音質は顕著に向上するが,同時にHMM音声合成の利点である音響モデリングの柔軟性が失われる.本稿では,HMM音声合成の利点を保持したハイブリッド法として,分散共有フルコンテキストモデルによる音声パラメータ生成法を提案する.提案法では,素片毎の音声パラメータを持つ分散共有フルコンテキストモデルを混合正規分布としてモデル化し,最尤基準に基づいたパラメータ生成アルゴリズムにより音声パラメータを生成する.実験的評価結果から,提案法により合成音声の音質が向上することを示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we propose parameter generation methods using rich context models in HMM-based speech synthesis as yet another hybrid method combining HMM-based speech synthesis and unit selection synthesis. In the traditional HMM-based speech synthesis, generated speech parameters tend to be excessively smoothed and they cause muffled sounds in synthetic speech. To alleviate this problem, several hybrid methods have been proposed. Although they significantly improve quality of synthetic speech by directly using natural waveform segments, they usually lose flexibility in converting synthetic voice characteristics. In the proposed methods, rich context models representing individual acoustic parameter segments are reformed as GMMs and a speech parameter sequence is generated from them using the parameter generation algorithm based on the maximum likelihood criterion. Since a basic framework of the proposed methods is still the same as the traditional framework, the capability of flexibly modeling acoustic features remains. We conduct several experimental evaluations of the proposed methods from various perspectives. The experimental results demonstrate that the proposed methods yield significant improvements in quality of synthetic speech. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2012-SLP-92, 号 10, p. 1-6, 発行日 2012-07-12 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |