2024-03-28T19:23:53Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000670492023-04-27T10:00:04Z01164:05159:05160:05936
Dirichlet事前分布を用いた音声区間検出の検討Voice Activity Detection Using Dirichlet Priorjpn【Session-6 韻律・VAD】http://id.nii.ac.jp/1001/00067049/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=67049&item_no=1&attribute_id=1&file_no=1Copyright (c) 2009 by the Information Processing Society of Japan日本電信電話株式会社NTTコミュニケーション科学基礎研究所日本電信電話株式会社NTTコミュニケーション科学基礎研究所日本電信電話株式会社NTTコミュニケーション科学基礎研究所藤本, 雅清渡部, 晋治中谷, 智広本研究では,確率モデルに基づく音声区間検出法に Dirichlet 事前分布を導入して音声区間検出の性能改善が得られることを述べる.確率モデルに基づく音声区間検出法では,Switching カルマンフィルタを用いて観測信号の環境に適応した音声/非音声 GMM を逐次生成し,各 GMM の確率比に基づき音声/非音声の識別を行っている.生成される GMM には不要な分布と重要な分布が混在しており,不要な分布を取り除き,重要な分布のみを用いることにより VAD の性能改善が得られる.分布の削減を行うと,削減前の混合分布とは分布全体の形状が大きく異なり,分布の事前確率も大きく異なる.このため,本研究では,事前分布を Dirichlet 分布で定義し,分布選択後の混合重みを最適化することについて検討を行った.This paper introduce the Drichlet prior into a statistical model-based voice activity detection (VAD), and shows its advantage. The statistical modelbased VAD identify speech / non-speech period based on environmental adapted speech and non-speech GMMs which are constructed by the Switching Kalman filter. The constructed GMMs include important and unimportant Gaussian distributions. Thus, the performance of VAD can be improved by reducing unimportant Gaussian distribution. Here, prior probabilities of each remaining distribution may drastically change, because the distribution shape after the Gaussian reduction is much different from original GMM. Thus, we propose an optimization method of prior probabilities by using the Drichlet prior.AN10442647音声言語情報処理(SLP)2009-SLP-7912162009-12-142009-12-08