WEKO3
アイテム
個別楽器音に基づく楽曲間類似度表現学習における音源分離の活用法
https://ipsj.ixsq.nii.ac.jp/records/234741
https://ipsj.ixsq.nii.ac.jp/records/234741088c0916-13e5-4543-ae3d-d1f45dddc396
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年6月7日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, SLP:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-06-07 | |||||||||||
タイトル | ||||||||||||
タイトル | 個別楽器音に基づく楽曲間類似度表現学習における音源分離の活用法 | |||||||||||
タイトル | ||||||||||||
言語 | en | |||||||||||
タイトル | Leveraging Music Source Separation in Music Similarity Representation Learning Based on Individual Instrument Sounds | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | ポスターセッション2 | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
名古屋大学情報学研究科 | ||||||||||||
著者所属 | ||||||||||||
名古屋大学情報学研究科 | ||||||||||||
著者所属 | ||||||||||||
名古屋大学情報基板センター | ||||||||||||
著者名 |
今村, 剛大
× 今村, 剛大
× 橋爪, 優果
× 戸田, 智基
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 個別楽器音に基づく楽曲間類似度表現手法は,多角的な音楽推薦を実現できる可能性を秘めた技術である.代表的な手法として,個別に学習された音源分離モデルと各楽器音特徴量抽出器を直列に接続する手法 (Cascade) と,音源分離を適用せず,楽曲から単一の特徴量抽出器を用いて,各楽器音特徴を捉えた楽曲特徴量を抽出する手法 (Direct) の 2 つが挙げられる.双方の手法には未だ課題が残っており,Cascade に関しては,音源分離モデルは独立に学習されるため,必ずしも楽曲類似度表現に適した分離楽器音が得られるとは限らず,Direct に関しては,各楽器音に対して異なる部分空間を持つ特徴量空間を学習することは容易ではなく,一部の楽器に対しては十分な楽曲間類似度表現性能が得られていない.本稿では,これらの課題の解決を目指して,楽曲音源分離手法の活用に着目し,Cascade に対しては,音源分離モデルと特徴量抽出器の end-to-end な fine-tuning (FT) を用いた Cascade-FT を,Direct に対しては,特徴量抽出と各部分空間特徴量から対応する各楽器音の再構成 (Reconst) を同時学習させる Direct-Reconst を提案する.実験的評価より,(1)Cascade に対する end-to-end な fine-tuning の導入により,楽曲間類似度計算性能が向上すること,(2)Direct に対する楽器音の再構成との同時学習の導入により,各楽器音特徴分離性能が改善することが確認された. | |||||||||||
論文抄録(英) | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | Music similarity representation learning (MSRL) based on individual instrument sounds (InMSRL) is a potential technique allowing users to focus on multiple partial elements of music pieces. There have been proposed two main approaches, Cascade that sequentially performs music source separation (MSS) and music similarity feature extraction for each instrument sound and Direct that directly extracts disentangled music similarity features. Each approach has a specific problem; in Cascade, a separation error often causes adverse effects on the feature extraction; and in Direct, it is usually hard to learn accurately disentangled features and InMSR performance tends to degrade for some instruments. In this paper, we propose multi-task learning approaches to leveraging MSS to address these issues. For Cascade, we propose end-to-end fine-tuning of the MSS model and the music similarity feature extractors using an auxiliary separation loss. For Direct, we propose multi-task learning based on the disentangled music similarity feature extraction and MSS based on reconstruction with the disentangled music similarity features. We conduct experimental evaluations and demonstrate that (1) the end-to-end fine-tuning for Cascade significantly improves InMSR performance and (2) the multi-task learning for Direct is also helpful to improve disentanglement performance in the feature extraction. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10442647 | |||||||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2024-SLP-152, 号 54, p. 1-7, 発行日 2024-06-07 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8663 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |