@techreport{oai:ipsj.ixsq.nii.ac.jp:00057455,
 author = {西浦, 敬信 and 中村, 哲 and 鹿野, 清宏 and Takanobu, Nishiura and Satoshi, Nakamura and Kiyohiro, Shikano},
 issue = {119(2000-SLP-034)},
 month = {Dec},
 note = {テレビ会議システムや音声による機器の制御において,発話者から離れた位置にあるマイクロホンで発話者の音声を高音質に受音することは極めて重要である.そこで発話者から離れた位置にあるマイクロホンでも発話者の音声を高音質に受音する方法としてマイクロホンアレーが注目されている.マイクロホンアレーを用いて高音質に発話者の音声を受音するためには,発話者の方向を推定することが必要となる.しかし,これまでの方向推定に関する研究では,複数の音源方向を推定することは多数試みられているが,その中から話者方向を推定することは困難であった.そこで本稿では,HMMに基づく音源識別を用いた話者位置推定法を提案する.まず,マイクロホンアレーを用いて音源方向を推定したのちに,ビームフォーミングを行い,その音を高音質に受音する.その後,HMMを用いた音声および環境音モデルにより音声・非音声の識別を行うことにより話者方向を推定する.また,本システムの音声認識性能も合わせて評価する.評価実験の結果,本手法により残響下でも良好に音声・非音声が識別でき,話者の方向を推定できることがわかった., It is very important for a hands-free speech interface to capture distant talking speech with high quality. A microphone array is an ideal candidate as an effective method for capturing distant talking speech. However, it is necessary to localize the target talker before capturing distant talking speech using a microphone array. In the conventional method of talker localization, it is difficult to estimate the target talker position accurately among localized sound sources, while the sound sources can be easily localized in a multiple sound source environment. To cope with this problem, we propose a talker localization algorithm by discriminating the sound sources using statistical speech and noise models based on HMMs (Hidden Marcov Models). First, the directions of signal arrival are estimated using a microphone array. Then, the desired sound signals are enhanced by steering the directivities to the estimated directions of signal arrival. The talker can be localized after discriminating between "speech" or "noise" from the desired sound signals using statistical speech and noise HMMs. In this paper, we evaluate the discrimination performance for the source position-known condition and position-unknown condition. The system recognizes the input from a sound source which is discriminated as being "speech" using statistical speech and noise HMMs. As a result, we confirm that the talker position is localized accurately because speech and noise can be discriminated effciently in reverberant environments.},
 title = {マイクロホンアレーを用いたHMMに基づく音源識別の評価},
 year = {2000}
}