WEKO3
アイテム
Contrastive Learningを活用した動画に合う楽曲の推薦システムと検索インタフェース
https://ipsj.ixsq.nii.ac.jp/records/234620
https://ipsj.ixsq.nii.ac.jp/records/234620224f9b01-5d13-4dd1-aa21-364e49b1f706
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年6月7日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, MUS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-06-07 | |||||||||
タイトル | ||||||||||
タイトル | Contrastive Learningを活用した動画に合う楽曲の推薦システムと検索インタフェース | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Music Recommendation System and Retrieval Interface for Video Advertising BGM Using Contrastive Learning | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | ポスターセッション1 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
Septeni Japan株式会社 | ||||||||||
著者所属 | ||||||||||
お茶の水女子大学 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Septeni Japan | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Ochanomizu Uniersity | ||||||||||
著者名 |
大矢, 隼士
× 大矢, 隼士
× 伊藤, 貴之
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 近年,インターネット広告費は社会のデジタル化に伴い堅調に伸びており,特に動画広告においては昨年度において最も高い成長率となった.動画広告の必要性が高まる一方で,動画広告の制作コストは他のインターネット広告と比較して依然として高いままである.我々は動画広告の制作における時間的コストの削減を目的として,動画に合う楽曲を推薦し,推薦楽曲が動画に適さない場合には直感的に楽曲を検索するシステムを開発した.本研究のシステムは,以下の二つのモデルで構成される.1) 3D ResNet と Audio Spectrogram Transformer を CLIP アーキテクチャを用いて Contrastive Learning で学習し,動画に合った楽曲を推薦するモデル.2) 楽曲から信号処理ベースの特徴量を抽出し,ロジスティック回帰を用いてクリエイターが簡単にタグ付けした楽曲の印象を学習するモデル.この二つのモデルを組み込んだインタフェースを開発し,ユーザが容易に動画広告の BGM を選択できる枠組みを提供する.システム評価は二つのモデルについて,動画クリエイター 20 名で主観評価実験を行った.動画に合う楽曲の推薦については課題が残るものの,楽曲の印象推定については有用性を示した. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | In recent years, Internet advertising expenses have been steadily growing along with a digitization of society, with video advertising, in particular, achieving the highest growth rate in the last year. While a need for video advertising is increasing, the cost of producing video ads has remained high compared to other Internet advertising. We developed an intuitive music retrieval system that recommends music suitable for video advertising and retrieves music when the recommended songs are not suitable for the video, for the purpose of reducing the time and cost of creating video advertisements. The system in this study consists of the following two models. 1) The model that adopts 3D ResNet and Audio Spectrogram Transformer with Contrastive Learning using CLIP architecture to recommend songs that match the video. 2) The model that extracts signal processing-based audio features from songs and adopts logistic regression to learn the impressions of songs that are simply tagged by creators. And also we developed an interface that incorporates these two models and provided a framework that allows users to easily select background music for video advertising. A subjective evaluation experiment was conducted as a system evaluation of the two models with 20 of our video creators. Although some issues remain regarding the recommendation of songs that match the videos, the experiment showed that our system is practically useful in estimating the impression of songs. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN10438388 | |||||||||
書誌情報 |
研究報告音楽情報科学(MUS) 巻 2024-MUS-140, 号 8, p. 1-8, 発行日 2024-06-07 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8752 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |