@techreport{oai:ipsj.ixsq.nii.ac.jp:02003742, author = {杉本,悠 and Jun-You,Wang and Li,Su and 中村,栄太}, issue = {8}, month = {Aug}, note = {本研究では,歌声MIDI採譜に音楽言語モデルを適用する方法について調べる.歌声MIDI採譜は,音楽音響信号から,歌声パートにおける各音符の音高,発音時刻,消音時刻を推定するタスクである.近年の研究では,深層ニューラルネットワーク(DNN)を用いて音高をフレームごとに予測する音響モデルが研究されてきたが,歌唱における大きな音高の変動や不明瞭な音符の境界のため,依然として誤推定が発生している.この課題に対処するために,本研究では音符レベルで音高確率を推定するマルコフモデルおよびDNNベースの言語モデルを構築し,DNNベースの音響モデルに統合する.統合方法として,生成モデリングとトランスデューサによる2つの手法の定式化を行う.実験結果から,いずれの統合方法においても,ベースラインの音響モデルと比較して採譜精度が有意に向上することが示された.さらに,各言語モデルおよび各統合手法ごとに異なる長所と短所についても議論する.}, title = {音楽言語モデルを用いた歌声MIDI採譜の定式化と比較}, year = {2025} }