2024-03-29T09:01:58Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001978192023-04-27T10:00:04Z01164:05064:09706:09832
周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダjpnポスターセッション1http://id.nii.ac.jp/1001/00197729/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=197819&item_no=1&attribute_id=1&file_no=1Copyright (c) 2019 by the Information Processing Society of Japan国立大学法人名古屋工業大学/株式会社テクノスピーチ株式会社テクノスピーチ国立大学法人名古屋工業大学/株式会社テクノスピーチ国立大学法人名古屋工業大学国立大学法人名古屋工業大学/株式会社テクノスピーチ大浦, 圭一郎中村, 和寛橋本, 佳南角, 吉彦徳田, 恵一本稿では,ニューラルネットワークに基づく音声ボコーダにおいて,周期信号と非周期信号を入力とする音声生成の枠組みを提案する.近年,ニューラルネットワークを用いて音声波形を直接モデル化する手法として WaveNet [1] が提案された.WaveNet は音声波形を高精度にモデル化することができ,自然な音声を直接生成することができるため,特に音声ボコーダ [2] として様々な研究で利用されている [3],[4],[5].しかし,過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持ち,合成時に並列演算ができないことから,実時間で合成できない問題があった.また,WaveNet を学習する際のデータベースに無い音高の再現ができない問題や,補助特徴量として指定したピッチ情報の音高を再現しないことがある問題があった.これらの問題に対し,本稿では明示的に周期信号と非周期信号の列を入力として用い,対応する音声サンプルの列を一度に生成する手法を提案する.提案手法を用いることで,実時間より高速に音声を生成できること,および,学習データの範囲外のピッチを持つ音声波形を生成できることを確認した.また,自然性に関する主観評価実験を行い,WaveNet と比較して合成音声品質の向上を確認した.AN10438388研究報告音楽情報科学(MUS)2019-MUS-12334162019-06-152188-87522019-06-14