2024-03-29T08:58:14Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001926992023-04-27T10:00:04Z01164:05159:09402:09617
End-to-End音声合成を用いた単語単位End-to-End音声認識のデータ拡張jpnセッション1 音声認識http://id.nii.ac.jp/1001/00192610/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=192699&item_no=1&attribute_id=1&file_no=1Copyright (c) 2018 by the Information Processing Society of Japan京都大学情報学研究科京都大学情報学研究科京都大学情報学研究科京都大学情報学研究科上乃, 聖三村, 正人坂井, 信輔河原, 達也単語単位 End-to-End 音声認識は簡潔な構造で非常に高速な認識ができ,高い性能を達成している.しかし,単語単位音声認識モデルには,未知語を登録 ・ 認識できない問題と,テキストのみを用いた学習ができないという問題がある.一方で End-to-End 音声合成も近年研究されており,人間の音声に近い自然性を達成している.そこで本研究では,End-to-End 音声合成を用いた音声認識のデータ拡張を提案する.音声合成は通常単一話者で訓練されるが,音声認識には多様性のあるデータを必要とする.そこで,音声合成を多数話者の音声を出力できるように拡張し,音声合成による学習データ生成をより汎用的なものになることを目指す.音声合成は話者情報を符号化して,多数話者のコーパスから学習し,認識したいドメインのテキストから音声を合成する.これらの合成音声と人間が発話した自然音声を組み合わせて注意機構を用いたエンコーダデコーダモデルによる単語単位音声認識モデルの学習を行う.実験により多数話者音声合成を用いたモデルはベースラインモデルや単一話者音声合成を用いたモデルよりも大きな改善が見られた.AN10442647研究報告音声言語情報処理(SLP)2018-SLP-1252152018-12-032188-86632018-11-29