Item type |
SIG Technical Reports(1) |
公開日 |
2018-06-09 |
タイトル |
|
|
タイトル |
畳込みニューラルネットワークを用いた音響特徴量変換とスペクトログラム高精細化による声質変換 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
株式会社ドワンゴ |
著者所属 |
|
|
|
東北大学 |
著者所属 |
|
|
|
東北大学 |
著者所属 |
|
|
|
東北大学 |
著者所属 |
|
|
|
株式会社ドワンゴ |
著者名 |
廣芝, 和之
能勢, 隆
宮本, 颯
伊藤, 彰則
小田桐, 優理
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,元話者の声質を目標話者の声質に変換する問題を扱う.ニューラルネットワークを用いた統計的声質変換では,自己回帰モデルである WaveNet を用いた手法が知られている.我々は今回,並列処理による高速化の難しい自己回帰を用いず,畳み込みのみで構成されたニューラルネットワークによって声質変換を行うことを目指す.提案するネットワークは 2 段階で構成されている.1 段階目は,元話者の声質を目標話者の声質に変換するネットワークである.ここでは,音響特徴量を時間方向に畳み込んで,時間変動を考慮した変換結果を得ることを期待する.音響特徴量としては低次のメルケプストラム系列を用いることで,少数のパラレルデータでも過学習しないことを期待する.2 段階目は,変換結果を更に高品質化するためのネットワークである.ここでは,1 段目で得られた音響特徴量をスペクトログラムに戻したあとに,改めて高品質化を行う.1 段階目と 2 段階目を独立に学習可能なため,高品質化を比較的入手が容易な目標話者のデータのみで学習できるようになる. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2018-MUS-119,
号 27,
p. 1-4,
発行日 2018-06-09
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |