| Item type |
National Convention(1) |
| 公開日 |
2021-03-04 |
| タイトル |
|
|
タイトル |
視聴覚統合に基づく音源定位と音区間検出の自己教師あり学習 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
人工知能と認知科学 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
| 著者所属 |
|
|
|
早大/産総研 |
| 著者所属 |
|
|
|
産総研 |
| 著者所属 |
|
|
|
産総研 |
| 著者所属 |
|
|
|
産総研 |
| 著者所属 |
|
|
|
早大 |
| 著者所属 |
|
|
|
早大 |
| 著者名 |
升山, 義紀
坂東, 宜昭
佐々木, 洋子
大西, 正輝
矢田部, 浩平
及川, 靖広
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
ロボットが周囲の音環境を理解し行動するには、どの物体がいつ音を発しているか認識することが重要である。近年、音画像データの解析の中でも会議映像の解析ではDNNを用いた手法が高い性能を実現している。しかし、様々な音源が存在する実環境で収録されたデータに対し「各物体がいつ音を発しているか」という教師データを作成するのは容易ではない。本稿では、画像内の音源物体を検出するDNNと、各物体がいつ音を発しているかを推定するDNNの自己教師あり学習法を提案する。この学習法は教師データの代わりに、多チャネル音響信号の空間モデルを活用する。音源として人物を複数含む全方位画像と多チャネル混合音を合成し、動作を定性的に確認した。 |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00349328 |
| 書誌情報 |
第83回全国大会講演論文集
巻 2021,
号 1,
p. 363-364,
発行日 2021-03-04
|
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |