Item type |
SIG Technical Reports(1) |
公開日 |
2015-11-25 |
タイトル |
|
|
タイトル |
制約付き Three-Way Restricted Boltzmam Machine を用いた音響・音韻・話者情報の同時モデリング |
タイトル |
|
|
言語 |
en |
|
タイトル |
Simultaneous Modelling of Acoustic, Phonetic, Speaker Features Using Improved Three-Way Restricted Boltzmann Machine |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
声質変換 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
電気通信大学情報システム学研究科 |
著者所属 |
|
|
|
神戸大学自然科学系先端融合研究環 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Systems, University of Electro-Communications |
著者所属(英) |
|
|
|
en |
|
|
Organization of Advanced Science and Technology, Kobe University |
著者名 |
中鹿, 亘
滝口, 哲也
|
著者名(英) |
Toru, Nakashika
Tetsuya, Takiguchi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,音響特徴量・音韻特徴量・話者特徴量の3つを変数とする Three-Way Restricted Boltzmann Machine(3WRBM) を用いて音声モデリングを試みろ.3WRBM はそれぞれの変数のユーナリーポテンシャル,2 変数間のペアワイズポテンシャル,そして 3 変数間の Three-way ポテンシャルを総和したエネルギーに基づく確率密度関数である.本研究では,音響・音韻・話者特徴量の Three-way ポテンシャルを話者正規化学習・話者適応の観点から適切に設計する.一度モデルの学習が終われば 3 変数間の関係性が捉えられ,各特徴量の相互条件付確率を簡単に計算することができる.3WRBM による音声モデリングの性能を評価するために,本稿では声質変換実験と話者認識実験の結果を報告する.話者認識実験における話者特徴量は与えられた音響特徴量から尤度最大下基準により推定することで求めることができ,声質変換は,推定された音韻'情報と,切り替えた話者情報から音響特徴量を推定することで実現される. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we argue the way of modelling speech signals using improved three-way restricted Boltz mann machine (3WRBM) where acoustic features, latent phonological features, and speaker-identity features are considered. The 3WRBM is an energy-based probabilistic model that includes three kinds of potentials: unary potentials of each variable, pairwise potentials of every two variables, and three-way potentials of the three variables. In our approach, we design the three-way potentials properly in the speaker-adaptive training (SAT) manner. The optimized model captures the relationships between the variables, enables to compute conditional probabilities of each variables, and is appliable to many tasks in speech signal processing. For example, estimating speaker-identity features given acoustic features is used for speaker recognition. Another example is estimating acoustic features from the phonological features that are estimated given source speaker's acoustic features and the desired speaker-identity features; that is voice conversion. In our experiments, we evaluate the effectiveness of the speech modelling through a voice conversion task and a speaker recognition task. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2015-SLP-109,
号 2,
p. 1-6,
発行日 2015-11-25
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |