WEKO3
アイテム
HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討
https://ipsj.ixsq.nii.ac.jp/records/79376
https://ipsj.ixsq.nii.ac.jp/records/7937642faecd3-0cca-441c-bb81-5e229768c6b5
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2100年1月1日からダウンロード可能です。
|
Copyright (c) 2011 by the Institute of Electronics, Information and Communication Engineers
This SIG report is only available to those in membership of the SIG. |
|
SLP:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2011-12-12 | |||||||
タイトル | ||||||||
タイトル | HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Study on Phone Duration Modeling Using Dynamic Features for HMM-Based Speech Synthesis | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 音声合成 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京工業大学大学院総合理工学研究科 | ||||||||
著者所属 | ||||||||
東京工業大学大学院総合理工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology | ||||||||
著者名 |
能勢, 隆
× 能勢, 隆
|
|||||||
著者名(英) |
Takashi, Nose
× Takashi, Nose
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | HMM 音声合成における音素継続長の推定精度の改善を目的とし,動的特徴量を用いた音素継続長のモデル化および生成手法を提案する.継続長のモデル化については隠れセミマルコフモデル (HSMM) により状態継続長を明示的にモデル化する手法が提案されているが,音素継続長が直接モデル化されておらず,また音素間の継続長の関係はコンテキストのみで表現されている.提案法では,音素継続長を観測デ-タとみなし直接モデル化を行う.モデル化の際には,音素間の継続長の相関を明示的に考慮するために静的特徴量だけでなく音素継続長の動的特徴量も用いて学習を行う.合成時には静的および動的特徴量を用いて音素継続長系列を生成することにより音素間の継続長の相関を合成音声に反映させることが可能となる.静的特徴量のみを用いた場合や対数継続長を用いた場合などとの比較を行い,提案法の有効性を示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a technique for modeling and generating phone durations using their dynamic features to improve prediction accuracy of phone durations in HMM-based speech synthesis. For the duration modeling, a technique with explicit state-duration modeling based on hidden semi-Markov model (HSMM) has been proposed. However, the HSMM cannot directly model phone durations, and the relation of phone durations among adjacent phonemes are represented only by context labels. In the proposed technique, phone durations are regarded as observable data obtained by manual labeling or forced alignment and are directly modeled using single Gaussian distributions. To explicitly take into account the correlation of phone durtions in the model training and speech synthesis, we use not only static phone durations but also dynamic ones. When synthesizing speech, we generate a phone-duration sequence from the trained duration models using a parameter generation algorithm with static and dynamic features. We evaluate the performance of our duration modeling technique by comparing to other techniques with static or static log-duration features. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2011-SLP-89, 号 33, p. 1-6, 発行日 2011-12-12 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |