Item type |
SIG Technical Reports(1) |
公開日 |
2017-06-10 |
タイトル |
|
|
タイトル |
テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Pre-training Method for DNN-based Speech Recognition and Synthesis Based on Bidirectional Conversion between Text and Speech |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
電気通信大学大学院情報理工学研究科情報・ネットワーク工学専攻 |
著者所属 |
|
|
|
電気通信大学大学院情報理工学研究科情報・ネットワーク工学専攻 |
著者所属 |
|
|
|
電気通信大学大学院情報理工学研究科情報・ネットワーク工学専攻 |
著者所属(英) |
|
|
|
en |
|
|
UEC |
著者所属(英) |
|
|
|
en |
|
|
UEC |
著者所属(英) |
|
|
|
en |
|
|
UEC |
著者名 |
曾根, 健太郎
中鹿, 亘
南, 泰浩
|
著者名(英) |
Kentaro, Sone
Toru, Nakashika
Yasuhiro, Minami
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
統計的パラメトリック音声合成への従来のアプローチは,テキスト情報から音声パラメータを生成するために,決定木を用いてクラスタリングされた文脈依存隠れマルコフモデル (Hidden Markov Model ; HMM) を用いる.しかし,決定木は,複雑なコンテキストの依存関係を効率的にモデル化できないことが知られている.その問題を解決するため,深層ニューラルネットワーク (Deep Neural Network ; DNN) を用いて決定木を代替する手法がある.この手法により,テキスト情報から音声パラメータへの依存関係を効率的に表現することができるが,この手法では音声合成しか行うことができない.音声認識を行いたい場合は,音声認識器をまた別に用意して学習する必要があり,その場合学習コストが余分にかかってしまう.そこで,本研究では,学習コストの削減を目的とし,生成モデルである Deep Relational Model (DRM) を用いてテキスト ・ 音声間の双方向の関係性を表現することで,DNN 音声認識器と DNN 音声合成器を同時に事前学習することができる手法を提案する.評価実験では,音声認識と音声合成の 2 つのタスクにおいて,提案手法により事前学習された DNN が,パラメータの初期値をランダムに与えた DNN よりも優れていることが示された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Conventional approaches to statistical parametric speech synthesis use context-dependent hidden Markov models (HMMs) clustered using decision trees to generate speech parameters from linguistic features. However, decision trees are not always appropriate to model complex context dependencies efficiently. Although an alternative scheme based on a deep neural network (DNN) was presented as a possible way to overcome the difficulty, this approach has a restriction that it is applied for only speech synthesis; for example, this approach cannot be applied for speech recognition. Thus, systems for speech recognition requires training cost separately. This paper proposes a pre-training method for DNN based speech recognition and synthesis by capturing deep relationships between text and speech using deep relational model (DRM) to reduce training costs. Experimental results show that pre-trained DNN-based systems using the proposed method outperformed randomly initialized DNN-based systems. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2017-MUS-115,
号 40,
p. 1-6,
発行日 2017-06-10
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |