WEKO3
アイテム
音声<i>F</i>0パターン生成過程の確率モデルによるテキストからの韻律生成技術研究報告原稿
https://ipsj.ixsq.nii.ac.jp/records/101377
https://ipsj.ixsq.nii.ac.jp/records/101377c4a0868b-b1ea-4551-8ee4-cbb6297bae14
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2100年1月1日からダウンロード可能です。
|
Copyright (c) 2014 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.\n
|
|
MUS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-05-17 | |||||||
タイトル | ||||||||
タイトル | 音声<i>F</i>0パターン生成過程の確率モデルによるテキストからの韻律生成技術研究報告原稿 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Text-to-speech prosody synthesis based on probabilistic model for <i>F</i>0 contour The Technical Report | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 研究紹介 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学情報理工学系研究科/NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
The University of Tokyo / NTT Communication Science Laboratories | ||||||||
著者名 |
門脇, 健人
× 門脇, 健人
|
|||||||
著者名(英) |
Kento, Kadowaki
× Kento, Kadowaki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本研究では,テキスト音声合成を目的としてテキストからF0パターンを生成する問題を扱う.テキスト音声合成において隠れマルコフモデル(Hidden Markov Model; HMM)に基づく統計的アプローチが成功を収めているが,従来の HMM 音声合成手法によって生成される F0 パターンのパラメータは過剰に平滑化される傾向にあり,必ずしも肉声に近い F0 パターンが生成されるというわけではなかった.それに対して,我々は自然なイントネーションを実現する為に,藤崎らによる F0 パターンの生成過程モデル (藤崎モデル) に着目した.我々の研究室では既に藤崎モデルの確率モデル化に成功しており,本研究では当該モデルをコンテキスト依存型へと拡張し,モデル学習の為のアルゴリズムを導出した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper deals with the problem of generating the fundamental frequency (Fo) contour of speech from a text input for text-to-speech synthesis. We have previously introduced a statistical model describing the generating process of speech Fo contours, based on the discrete-time version of the Pujisaki model. One remarkable feature of this model is that it has allowed us to derive an efficient algorithm based on powerful statistical methods for estimating the Fujisaki-model parameters from raw Fo contours. To associate a sequence of the Fujisaki-model parameters with a text input based on statistical learning, this paper proposes extending this model to a contex t-dependent one. We further propose a parameter training algorithm for the present model based on a decision tree-based context clustering. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10438388 | |||||||
書誌情報 |
研究報告音楽情報科学(MUS) 巻 2014-MUS-103, 号 60, p. 1-6, 発行日 2014-05-17 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |