Item type |
SIG Technical Reports(1) |
公開日 |
2016-05-14 |
タイトル |
|
|
タイトル |
Three-way restricted Boltzmann machineによる音声モデリングに基づく話者・音素の同時認識 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Speech modeling using three-way restricted Boltzmann machine for simultaneous speaker-phoneme recognition |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
電気通信大学 |
著者所属 |
|
|
|
電気通信大学 |
著者所属(英) |
|
|
|
en |
|
|
The University of Electro-Communications |
著者所属(英) |
|
|
|
en |
|
|
The University of Electro-Communications |
著者名 |
中鹿, 亘
南, 泰浩
|
著者名(英) |
Toru, Nakashika
Yasuhiro, Minami
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
これまで様々な音声認識 (音素認識) 技術や話者認識技術が提案されてきたが,それらの要素技術は別々に研究されてきた.本研究では,音響特徴量・潜在的音韻特徴量・話者特徴量の 3 つを変数とする Three-Way Restricted Boltzmann Machine (3WRBM) を用いた音声モデリングによって,話者と音素を同時に認識する手法を提案する.3WRBM はそれぞれの変数のユーナリーポテンシャル,2 変数間のペアワイズポテンシャル,そして 3 変数間のThree-way ポテンシャルを総和したエネルギーに基づく確率密度関数である.このモデルの特徴として,各特徴量の相互条件付確率を容易に計算することができる.これにより,音響特徴量が与えられた時の条件付き確率を最大化する音韻特徴量及び話者特徴量を一つのモデルで同時推定することができる.評価実験では,3WRBM による話者・音素の認識実験の結果を報告し,その有効性について議論する. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2016-MUS-111,
号 21,
p. 1-6,
発行日 2016-05-14
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |