@techreport{oai:ipsj.ixsq.nii.ac.jp:00238196, author = {中迫, 酒菜 and Sakana, Nakasako}, issue = {2}, month = {Aug}, note = {本稿では楽器音・歌唱音声を統一的かつ柔軟に合成可能なシステムである Melisma を紹介する.楽器は歌唱と違い従来の音素ラベルを付与することが困難なものも多いため,本システムでは音素ラベルと継続長モデルを使用しない.また,一般的な音楽制作に十分な速度を出すため,全ての楽器と歌唱を総パラメーター数およそ 8M のひとつのモデルで取り扱えること,長いフレーズを情緒的に表現するための楽譜の解釈など,音楽制作現場で求められる条件を充たすための方法を紹介する., This paper introduces Melisma, a system capable of synthesizing instrumental and vocal sounds in a unified and flexible manner. Unlike vocals, many instruments have difficulties in assigning phoneme labels. Therefore this system does not use phoneme labels and duration models. The report introduces methods to meet the conditions required in music production, such as integrating all instruments and vocals into a single model with approximately 8 million parameters in total to achieve sufficient speed for general music production, and interpreting musical scores to express long phrases emotively.}, title = {Melisma: 楽譜ラベルに基づく単一モデルによるDNN多楽器・多歌唱者音合成システム}, year = {2024} }