| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-02-21 |
| タイトル |
|
|
タイトル |
音響イベント定位・検出のための空間情報付き映像・音響信号を用いた自己教師あり学習 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP-EA:音響・モデル |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
京都大学工学部情報学科/産業技術総合研究所 |
| 著者所属 |
|
|
|
産業技術総合研究所 |
| 著者所属 |
|
|
|
同志社大学理工学部/産業技術総合研究所 |
| 著者所属 |
|
|
|
産業技術総合研究所 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者名 |
藤田, 陽斗
坂東, 宜昭
井本, 桂右
大西, 正輝
吉井, 和佳
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,多チャネル音響信号に対する音響イベント定位・検出 (SELD) のための教師なし事前学習法について述べる.SELD タスクでは,音響イベントの種類・方向・発生時刻を推定する深層ニューラルネットワーク (DNN) を教師あり学習する枠組みが近年の主流である.しかし,学習データの作成には膨大な手間がかかり,推定精度や汎化性能の改善には限界があった.そこで本研究では,インターネット上で多数公開されている空間情報付き仮想現実 (VR) コンテンツを利用して,その全周囲映像と一次アンビソニックス音響信号から DNN を予め教師なし学習する方法を提案する.この種のコンテンツでは,音源の方向・種類・発生時刻は,映像内の音源の位置・見た目・時間変化に対応していると考えられる.そのため,各方向に対応する音響特徴量と当該方向の局所的な映像特徴量とが,同じコンテンツの同じ方向由来(正例)であれば近く,そうでない(負例)なら遠くなるよう対照学習することで,音響・映像内に共起するイベントの種類や方向に関する特徴量抽出器が得られる.このようにして得られた音響特徴量抽出器に SELD 用の出力層を追加した DNN を構成し,少量の学習データを用いて全体をファインチューニングする. 100 時間の空間情報付き映像・音響信号を用いて事前学習した音響特徴抽出器を SELD 用の STARSS22 データセットに転移学習し,提案法の有効性を評価した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-146,
号 32,
p. 1-5,
発行日 2023-02-21
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |