@techreport{oai:ipsj.ixsq.nii.ac.jp:00232829, author = {元満, 丈寛 and 林, 克彦 and 坂井, 優介 and 上垣外, 英剛}, issue = {12}, month = {Mar}, note = {近年,自然言語を用いた音楽検索・生成モデルに関する研究が盛んに行われている.これらモデルの学習や評価には,音楽に関する情報を自然言語の文章形式で記述した説明文(音楽キャプション)が必要となるが,規模の大きな公開データはほとんど存在しない.特に,自然言語による音楽の説明記述として,聴きたいシチュエーションや季節等の非音楽的なアスペクト情報は重要であるが,このようなアスペクトが記述された音楽キャプションデータは少ない.この問題に対処するため,本研究ではサムネイル画像から想起される非音楽的なアスペクト(聴きたいシチュエーションや時間,季節,聴いた時の感情)を付与した音楽キャプションデータの生成法を提案し,人手評価によって提案手法の有効性を確認した.また,約 36 万の非音楽的なアスペクトが付与された,学習用と評価用の音楽キャプションデータセットを作成した.作成したデータセットを用いて音楽検索モデルを学習し,検索タスクにおいて有効性を確認した.}, title = {サムネイル画像を活用した音楽キャプション生成法}, year = {2024} }