WEKO3
アイテム
トークン表現を用いたギター自動採譜における系列変換ネットワークの学習法
https://ipsj.ixsq.nii.ac.jp/records/226347
https://ipsj.ixsq.nii.ac.jp/records/2263472523bcc7-0588-4a78-b8a2-5166eb196986
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2023-06-16 | |||||||||||
| タイトル | ||||||||||||
| タイトル | トークン表現を用いたギター自動採譜における系列変換ネットワークの学習法 | |||||||||||
| タイトル | ||||||||||||
| 言語 | en | |||||||||||
| タイトル | Training methods for sequence-to-sequence network in token-based automatic guitar transcription | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 一般発表 | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 名古屋大学情報学研究科 | ||||||||||||
| 著者所属 | ||||||||||||
| 名古屋大学情報学研究科 | ||||||||||||
| 著者所属 | ||||||||||||
| 名古屋大学情報基板センター | ||||||||||||
| 著者名 |
金, 世訓
× 金, 世訓
× 武田, 一哉
× 戸田, 智基
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 本稿では,出力としてトークン化された音楽表現を使用する sequence-to-sequence ギター自動採譜モデルを効果的に学習するための手法を提案する.提案法は,主に,1)トークン化された音楽表現に対応したマルチタスク学習,および,2)学習データ拡張から構成される.エンコーダー・デコーダー型の Transformer モデルの学習において,エンコーダーに connectionist temporal classification (CTC) を適用したハイブリッド CTC-Attention によるマルチタスク学習を導入することで,出力トークン系列と音響特徴系列のアラインメントの学習難易度を改善する.学習データ拡張に関しては,1)決められた小節数に曲を分割する際の小節オーバーラップ処理,および,2)MIDI のみのデータも併用して学習データ量を増加させるために,MIDI から音波形を合成してペアデータを生成する処理を導入する.実験的評価の結果から,1)提案するデータ拡張法がトークン化された出力を生成する Transformer モデルの学習に効果的であること,2)提案するマルチタスク学習は学習データ量が不十分な場合に特に効果的であること,3)提案法により従来法を上回る自動採譜性能を達成できることを確認した. | |||||||||||
| 論文抄録(英) | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | We propose multiple methods for effectively training a sequence-to-sequence automatic guitar transcription model which uses tokenized music representation as an output. Our proposed method mainly consists of 1) a hybrid CTC-Attention model for sequence-to-sequence automatic guitar transcription that uses tokenized music representation, and 2) two data augmentation methods for training the model. Our proposed model is a generic encoder-decoder Transformer model but adopts multi-task learning with CTC from the encoder to make the model more easily learn desirable alignments between the output tokens and acoustic features. Our proposed data augmentation methods scale up the amount of training data by 1) creating bar overlap when splitting an excerpt to be used for network input, and 2) by utilizing MIDI-only data to synthetically create audio-MIDI pair data. We confirmed that 1) the proposed data augmentation methods were highly effective for training generic Transformer models that generate tokenized outputs, 2) the addition of multi-task learning with CTC in our proposed model is especially effective when there is an insufficient amount of training data, and 3) our proposed hybrid CTC-Attention model outperforms conventional methods that transcribe guitar performance with tokens. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN10438388 | |||||||||||
| 書誌情報 |
研究報告音楽情報科学(MUS) 巻 2023-MUS-137, 号 43, p. 1-7, 発行日 2023-06-16 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8752 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||