WEKO3
アイテム
メモリ機構付き深層距離学習に基づく音楽と画像の双方向検索
https://ipsj.ixsq.nii.ac.jp/records/232828
https://ipsj.ixsq.nii.ac.jp/records/232828a4a8ca90-9924-499c-a0e4-33b90f1bb510
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年3月2日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, MUS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-03-02 | |||||||||||
タイトル | ||||||||||||
タイトル | メモリ機構付き深層距離学習に基づく音楽と画像の双方向検索 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 応用システム | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
産業技術総合研究所 | ||||||||||||
著者所属 | ||||||||||||
産業技術総合研究所 | ||||||||||||
著者所属 | ||||||||||||
産業技術総合研究所 | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
National Institute of Advanced Industrial Science and Technology (AIST) | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
National Institute of Advanced Industrial Science and Technology (AIST) | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
National Institute of Advanced Industrial Science and Technology (AIST) | ||||||||||||
著者名 |
中塚, 貴之
× 中塚, 貴之
× 濱崎, 雅弘
× 後藤, 真孝
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 本稿では,音楽をクエリとしてその音楽に合った画像の検索(またはその逆)という双方向の検索を実現するための,深層距離学習に基づく手法について述べる.音楽と画像の適切なペアとして音楽とその代表画像(例えば,ジャケット画像やサムネイル画像)を利用し,まず,音楽と画像の共有埋め込み空間において,音楽とその代表画像の埋め込み特徴量が互いに近づき,音楽と画像のランダムなペアの埋め込み特徴量が互いに遠ざかるように,音楽エンコーダと画像エンコーダをそれぞれ学習する.さらに我々は,学習時の音楽と画像の埋め込み特徴量を保存し,学習イテレーションをまたいで保持するメモリ機構を提案し,それをエンコーダの学習に利用する.具体的には,それぞれのエンコーダの学習が進んだ段階で,メモリに保存した音楽と画像の埋め込み特徴量から,エンコーダのバッチ学習に有益な埋め込み特徴量を取り出し,損失関数の計算において使用する.このような学習を行うために,我々は音楽と画像のペアを 78,325 件含むデータセットを新たに構築した.このデータセットを用いて,検索タスクにおける性能評価指標である平均逆順位・再現率・中央順位に基づく比較実験を実施し,提案機構の有効性を示した.また,同じデータセットを用いた定性分析では,音楽と画像の共有埋め込み空間において,関連するカテゴリタグが付された音楽と画像が近くに埋め込まれていることを確認した. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10438388 | |||||||||||
書誌情報 |
研究報告音楽情報科学(MUS) 巻 2024-MUS-139, 号 11, p. 1-12, 発行日 2024-03-02 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8752 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |