ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音楽情報科学(MUS)
  3. 2023
  4. 2023-MUS-137

トークン表現を用いたギター自動採譜における系列変換ネットワークの学習法

https://ipsj.ixsq.nii.ac.jp/records/226347
https://ipsj.ixsq.nii.ac.jp/records/226347
2523bcc7-0588-4a78-b8a2-5166eb196986
名前 / ファイル ライセンス アクション
IPSJ-MUS23137043.pdf IPSJ-MUS23137043.pdf (1.6 MB)
Copyright (c) 2023 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2023-06-16
タイトル
タイトル トークン表現を用いたギター自動採譜における系列変換ネットワークの学習法
タイトル
言語 en
タイトル Training methods for sequence-to-sequence network in token-based automatic guitar transcription
言語
言語 jpn
キーワード
主題Scheme Other
主題 一般発表
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
名古屋大学情報学研究科
著者所属
名古屋大学情報学研究科
著者所属
名古屋大学情報基板センター
著者名 金, 世訓

× 金, 世訓

金, 世訓

Search repository
武田, 一哉

× 武田, 一哉

武田, 一哉

Search repository
戸田, 智基

× 戸田, 智基

戸田, 智基

Search repository
論文抄録
内容記述タイプ Other
内容記述 本稿では,出力としてトークン化された音楽表現を使用する sequence-to-sequence ギター自動採譜モデルを効果的に学習するための手法を提案する.提案法は,主に,1)トークン化された音楽表現に対応したマルチタスク学習,および,2)学習データ拡張から構成される.エンコーダー・デコーダー型の Transformer モデルの学習において,エンコーダーに connectionist temporal classification (CTC) を適用したハイブリッド CTC-Attention によるマルチタスク学習を導入することで,出力トークン系列と音響特徴系列のアラインメントの学習難易度を改善する.学習データ拡張に関しては,1)決められた小節数に曲を分割する際の小節オーバーラップ処理,および,2)MIDI のみのデータも併用して学習データ量を増加させるために,MIDI から音波形を合成してペアデータを生成する処理を導入する.実験的評価の結果から,1)提案するデータ拡張法がトークン化された出力を生成する Transformer モデルの学習に効果的であること,2)提案するマルチタスク学習は学習データ量が不十分な場合に特に効果的であること,3)提案法により従来法を上回る自動採譜性能を達成できることを確認した.
論文抄録(英)
内容記述タイプ Other
内容記述 We propose multiple methods for effectively training a sequence-to-sequence automatic guitar transcription model which uses tokenized music representation as an output. Our proposed method mainly consists of 1) a hybrid CTC-Attention model for sequence-to-sequence automatic guitar transcription that uses tokenized music representation, and 2) two data augmentation methods for training the model. Our proposed model is a generic encoder-decoder Transformer model but adopts multi-task learning with CTC from the encoder to make the model more easily learn desirable alignments between the output tokens and acoustic features. Our proposed data augmentation methods scale up the amount of training data by 1) creating bar overlap when splitting an excerpt to be used for network input, and 2) by utilizing MIDI-only data to synthetically create audio-MIDI pair data. We confirmed that 1) the proposed data augmentation methods were highly effective for training generic Transformer models that generate tokenized outputs, 2) the addition of multi-task learning with CTC in our proposed model is especially effective when there is an insufficient amount of training data, and 3) our proposed hybrid CTC-Attention model outperforms conventional methods that transcribe guitar performance with tokens.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10438388
書誌情報 研究報告音楽情報科学(MUS)

巻 2023-MUS-137, 号 43, p. 1-7, 発行日 2023-06-16
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8752
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 12:30:22.728966
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3