| Item type |
SIG Technical Reports(1) |
| 公開日 |
2026-05-29 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
楽曲の文脈情報理解に向けたマルチモーダル大規模言語モデルによる楽曲同定能力の検討 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
MUS |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
LINEヤフー株式会社/東京大学 |
| 著者所属 |
|
|
|
LINEヤフー株式会社 |
| 著者所属 |
|
|
|
LINEヤフー株式会社 |
| 著者所属 |
|
|
|
LINEヤフー株式会社 |
| 著者所属 |
|
|
|
LINEヤフー株式会社 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, LY Corporation / Graduate School of Information Science and Technology, The University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, LY Corporation |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, LY Corporation |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, LY Corporation |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, LY Corporation |
| 著者名 |
竹本,健悟
蓮実,拓也
Welly,Naptali
和気,雅弥
橘,健太郎
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
マルチモーダル大規模言語モデルは,音響キャプショニングにおいて有効性が報告されている一方で,入力音源が指す具体的な楽曲実体を特定し,その楽曲に関するメタデータなどの文脈情報に基づいて説明を行うことは難しい.音楽推薦やプレイリスト生成などの実応用では,音響情報だけでなく文脈情報も踏まえた楽曲理解が重要である.そこで本稿では,マルチモーダル大規模言語モデルによる楽曲の包括的な理解に向けて,入力音源からの楽曲の同定と文脈情報に基づく説明生成を伴う楽曲接地型キャプショニングタスクを提案し,この能力が学習によって獲得されうるのかを実験的に検討する.まず,楽曲数およびモデルサイズを系統的に変化させた学習実験により,楽曲同定能力のスケーリング特性を検証する.さらに,音響キャプショニングおよび多様な文脈情報記述からなる指示データセットを構築し,これを用いた複数課題の同時学習によって,文脈情報に基づく説明能力の獲得効果を検証する.これにより,マルチモーダル大規模言語モデルが音響情報に基づく楽曲識別と,その結果に接地した文脈情報の理解を一定程度統合できること,ならびに文脈情報を導入した学習が楽曲の包括的理解の向上に有効であることを示す. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2026-SLP-160,
号 5,
p. 1-7,
発行日 2026-05-29
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |