WEKO3
アイテム
時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換
https://ipsj.ixsq.nii.ac.jp/records/56589
https://ipsj.ixsq.nii.ac.jp/records/5658923319851-4dcf-437d-8e37-4d9422113b9e
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-12-02 | |||||||
タイトル | ||||||||
タイトル | 時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Simultaneous Transformation of Duration and Spectrum Using Statistical Models Including Time-Sequence Matching | |||||||
言語 | ||||||||
言語 | eng | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科創成シミユレーションエ学専攻 | ||||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科創成シミユレーションエ学専攻 | ||||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科創成シミユレーションエ学専攻 | ||||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科創成シミユレーションエ学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者名 |
油谷, かおり
× 油谷, かおり
|
|||||||
著者名(英) |
Kaori, Yutani
× Kaori, Yutani
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では時系列マッチングを含む統計モデルに基づいた継続長およびスペクトルの同時変換手法を提案する.これまで声質変換の主な手法としては,ガウス混合モデル (GMM) に基づくスペクトル変換法が用いられてきた.この手法では,元話者・目標話者間のフレームの対応を-対一と仮定しているため,発話速度を考慮したスペクトル変換を行うことができない.しかし,話者性は発話速度にも表れると考えられる.そこで本研究では継続長変換を行うため,時系列マッチングを含む統計モデル (DPGMM) を適用する. DPGMM は長さの異なる 2 つの系列を直接表現するため,継続長およびスペクトルの同時変換が可能となる.提案法では, DPGMM の各混合要素に継続長モデルを付加し,非線形かつスペクトル情報に依存した継続長変換を行う. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper describes a simultaneous conversion technique of duration and spectrum based on a statistical model including time-sequence matching. The conventional GMM-based approach cannot perform spectralconversion taking account of speaking rates because it assumes one to one frame matching between source and target features. However, speaker characteristics may also appear in speaking rates. In order to perform duration conversion, we attach duration models to statistical models including time-sequence matching (DPGMM). Since DPGMM can represent two different length sequences directly, the conversion of spectrum and duration can be performed within an integrated framework. In the proposed technique, each mixture component of DPGMM has different duration transformation functions, therefore durations are converted nonlinearly and dependently on spectral information. In a subjective DMOS test, the proposed method is superior to the conventional method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2008, 号 123(2008-SLP-074), p. 79-84, 発行日 2008-12-02 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |