@techreport{oai:ipsj.ixsq.nii.ac.jp:00160408, author = {中鹿, 亘 and 南, 泰浩 and Toru, Nakashika and Yasuhiro, Minami}, issue = {21}, month = {May}, note = {これまで様々な音声認識 (音素認識) 技術や話者認識技術が提案されてきたが,それらの要素技術は別々に研究されてきた.本研究では,音響特徴量・潜在的音韻特徴量・話者特徴量の 3 つを変数とする Three-Way Restricted Boltzmann Machine (3WRBM) を用いた音声モデリングによって,話者と音素を同時に認識する手法を提案する.3WRBM はそれぞれの変数のユーナリーポテンシャル,2 変数間のペアワイズポテンシャル,そして 3 変数間のThree-way ポテンシャルを総和したエネルギーに基づく確率密度関数である.このモデルの特徴として,各特徴量の相互条件付確率を容易に計算することができる.これにより,音響特徴量が与えられた時の条件付き確率を最大化する音韻特徴量及び話者特徴量を一つのモデルで同時推定することができる.評価実験では,3WRBM による話者・音素の認識実験の結果を報告し,その有効性について議論する.}, title = {Three-way restricted Boltzmann machineによる音声モデリングに基づく話者・音素の同時認識}, year = {2016} }