@techreport{oai:ipsj.ixsq.nii.ac.jp:00056643, author = {伊藤, 弘章 and 大石康智 and 宮島, 千代美 and 北岡, 教英 and 武田, 一哉 and Hiroaki, Itou and Yasunori, Ohishi and Chiyomi, Miyajima and Norihide, Kitaoka and Kazuya, Takeda}, issue = {68(2008-SLP-072)}, month = {Jul}, note = {本研究では,音楽混じりの音声に対する単一チャネル音源分離手法を提案する.バイナリマスキングの原理に基づくと,混合信号の各周波数成分のパワーは,個々の音源のうち,その周波数成分のパワーが最も大きい音源に由来するものであると考えることができる.したがって,混合信号の時間-周波数成分の中から,個々の音源が支配する成分を選択的に残し,他の成分をマスクするためのマスクパターンを決定すれば,個々の音源を分離することが可能となる.しかし,混合信号に含まれる各音源は未知であるため,個々の音源に対してこのマスクパターンを最適に推定する必要がある.そこで,時間-周波数成分の周囲の依存関係を仮定し,ベイジアンネットワークを用いて確率的に成分を選択する手法を提案する.提案手法の有効性を確認するために,6 種類の SNR で非定常な音楽を重畳した混合信号に対して音源分離実験を行い,目的の音源成分を選択するマスクパターンの正解率と音質の評価を行った.実験結果より,マスクの正解率と音質評価ともに従来のベイズ識別器を用いる手法よりも良い結果が得られることが確認された., In our study, we propose a method of single-channel sound source separation for a mixture of speech and music. Based on the principle of binary masking, we can assume that each time-frequency bin is dominated by a certain source whose power is highest of all original sources at the bin. Therefore, if we decide the mask pattern to selectively retain components dominated by the target signal and mask out the other signal, we can segregate the target signal from the mixed one. However, since original sources are unknown, we need to optimally estimate this mask pattern for each original source. So we assume the dependency among neighboring time-frequency components, and propose a probabilistic mask estimation method using bayesian networks. To prove the effectiveness of proposed method, we performed an experiment of source separation of mixture of speech and nonstationary musics with six defferent levels of SNRs and evaluate the accuracy of estimated mask pattern to select the target components and obtained sound quality.As a result, both accuracy and sound quality were better in comparison with conventional method which used bayesian classifier.}, title = {ベイジアンネットワークを用いたバイナリマスキングに基づく音源分離}, year = {2008} }