@techreport{oai:ipsj.ixsq.nii.ac.jp:00232485, author = {坂東, 宜昭 and 廣橋, 義寛 and 新原, 竜馬}, issue = {15}, month = {Feb}, note = {本稿では,インターネット上に膨大に存在する雑多なモノラル混合音 (ダークデータ) を活用した音響イベント定位・検出 (SELD) について述べる.SELD システムの構築では,学習データ不足を解消するため,検出したいイベントの音源信号と多チャネル背景雑音を用いたデータ合成が広く活用されている.しかし,現行のデータ合成法では,1) 音源収集のための音響タギングが困難,2) 雑音を含まない音源信号の入手が困難,3) 多チャネル背景雑音の収集が高コストという課題があった.本研究では,これらの課題を解決し,ダークデータを用いて高い汎化性能を持つ SELD システムを構築する.具体的には,1) 対照学習に基づく音響イベント埋め込みモデルの導入,2) 弱教師あり目的音源抽出法 NyTT を用いた疑似音源信号生成,3) モノラル時間周波数マスク推定に基づく音源定位により,モノラル混合音のみから SELD を構築する.提案法のアプリケーションとして,自動車に装着されたマイクロホンアレイを用いた緊急車両音の SELD に取り組み,AudioSet を用いた SELD システムの学習を通じて提案法の有効性を示す.}, title = {大規模モノラルダークデータを用いた音響イベント定位・検出の構築}, year = {2024} }