@techreport{oai:ipsj.ixsq.nii.ac.jp:00232828, author = {中塚, 貴之 and 濱崎, 雅弘 and 後藤, 真孝}, issue = {11}, month = {Mar}, note = {本稿では,音楽をクエリとしてその音楽に合った画像の検索(またはその逆)という双方向の検索を実現するための,深層距離学習に基づく手法について述べる.音楽と画像の適切なペアとして音楽とその代表画像(例えば,ジャケット画像やサムネイル画像)を利用し,まず,音楽と画像の共有埋め込み空間において,音楽とその代表画像の埋め込み特徴量が互いに近づき,音楽と画像のランダムなペアの埋め込み特徴量が互いに遠ざかるように,音楽エンコーダと画像エンコーダをそれぞれ学習する.さらに我々は,学習時の音楽と画像の埋め込み特徴量を保存し,学習イテレーションをまたいで保持するメモリ機構を提案し,それをエンコーダの学習に利用する.具体的には,それぞれのエンコーダの学習が進んだ段階で,メモリに保存した音楽と画像の埋め込み特徴量から,エンコーダのバッチ学習に有益な埋め込み特徴量を取り出し,損失関数の計算において使用する.このような学習を行うために,我々は音楽と画像のペアを 78,325 件含むデータセットを新たに構築した.このデータセットを用いて,検索タスクにおける性能評価指標である平均逆順位・再現率・中央順位に基づく比較実験を実施し,提案機構の有効性を示した.また,同じデータセットを用いた定性分析では,音楽と画像の共有埋め込み空間において,関連するカテゴリタグが付された音楽と画像が近くに埋め込まれていることを確認した.}, title = {メモリ機構付き深層距離学習に基づく音楽と画像の双方向検索}, year = {2024} }