@techreport{oai:ipsj.ixsq.nii.ac.jp:00214122, author = {上乃, 聖 and 河原, 達也}, issue = {28}, month = {Nov}, note = {End-to-End 音声認識が高い精度を達成しつつあるが,大量のデータを必要とする.その問題の解決のために音声合成を用いて音声認識の訓練データを生成することを検討してきた.音声合成においては,通常テキストから対数メルフィルタバンクを作る text-to-mel ネットワークを用いた後に,メルスペクトログラムを音声波形に変換するボコーダを用いて,音声波形を生成する.それを再びメルスペクトログラムに変換し,音声認識の訓練データとして用いる.ボコーダには合成音声と自然音声の差異を埋める効果があるが,この波形生成に非常に時間がかかるという問題がある.そこで本研究ではボコーダを用いずに周波数スペクトログラム上で直接強調を行うネットワークを提案する.提案手法では,生成されたメルスペクトログラムだけでなく,音声合成のタスクで利用可能な音素情報も用いる.評価実験から,提案手法がボコーダを用いるよりも少ない処理時間で拡張の効果が高いことを示し,また,音素情報の利用が改善に重要であることを示した.}, title = {音声認識のデータ拡張のための合成音声の周波数スペクトログラム強調}, year = {2021} }