@techreport{oai:ipsj.ixsq.nii.ac.jp:00224339, author = {鎌倉, 大地 and 中村, 栄太 and 吉井, 和佳}, issue = {15}, month = {Feb}, note = {本稿では,ポピュラー音楽の音楽音響信号から直接ドラム譜を推定する深層ドラム採譜について述べる.ドラム採譜では,従来,深層ニューラルネットワーク (DNN) を用いて音楽音響信号中からドラムの発音時刻を検出したのち,別途推定したビート・ダウンビート情報を用いて楽譜上の位置を推定するアプローチが一般的であった.しかし,DNN の学習に必要なドラムの発音時刻が付与された音響信号は限られていた.本研究では,End-to-End 音声認識に着想を得て,時間同期は取れていないものの,インターネットから比較的容易に入手可能な楽譜(ドラムパート譜)を用いた End-to-End ドラム採譜に取り組む.具体的には,コネクショニスト時間分類 (connectionist temporal classification; CTC) に基づく損失関数を用いて,フレーム単位の音響特徴量系列をテイタム単位のドラムラベル系列に変換する DNN を学習する.ただし,通常の CTC では,自由な時間伸縮を許容した入出力系列のアラインメントを行うため,各テイタムに対応するフレーム数が不自然に大きく変動しうる問題がある.特に,ドラムが存在しないテイタムは,本来対応するフレームの音響特徴量はドラム由来のものではないので,正しくアラインメントが行えない.この問題を解決するため,テンポがほぼ一定となるアラインメントのみを考慮した CTC 損失関数を提案する.提案法の動作を検証するため,1 小節分の音楽音響信号を用いた学習・評価を行い,提案法がドラムが存在しないテイタムを含めて,ドラムラベル系列および入力とのアラインメントを正しく推定できることを確認した.今後,実際的な長さの音響信号を扱うため,計算コストの削減に取り組む.}, title = {定テンポ制約付きCTCに基づく自動ドラム採譜}, year = {2023} }