テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法

曾根, 健太郎; 中鹿, 亘; 南, 泰浩; Kentaro, Sone; Toru, Nakashika; Yasuhiro, Minami

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法

https://ipsj.ixsq.nii.ac.jp/records/182242

名前 / ファイル	ライセンス	アクション
IPSJ-MUS17115040.pdf (1.1 MB)	Copyright (c) 2017 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2017-06-10

タイトル

テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法

タイトル

言語

タイトル

Pre-training Method for DNN-based Speech Recognition and Synthesis Based on Bidirectional Conversion between Text and Speech

言語

jpn

キーワード

主題Scheme

Other

主題

ポスターセッション

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

電気通信大学大学院情報理工学研究科情報・ネットワーク工学専攻

著者所属

電気通信大学大学院情報理工学研究科情報・ネットワーク工学専攻

著者所属

電気通信大学大学院情報理工学研究科情報・ネットワーク工学専攻

著者所属(英)

UEC

著者所属(英)

UEC

著者所属(英)

UEC

著者名

曾根, 健太郎
中鹿, 亘
南, 泰浩

著者名(英)

Kentaro, Sone
Toru, Nakashika
Yasuhiro, Minami

論文抄録

内容記述タイプ

Other

内容記述

統計的パラメトリック音声合成への従来のアプローチは，テキスト情報から音声パラメータを生成するために，決定木を用いてクラスタリングされた文脈依存隠れマルコフモデル（Hidden Markov Model ; HMM）を用いる．しかし，決定木は，複雑なコンテキストの依存関係を効率的にモデル化できないことが知られている．その問題を解決するため，深層ニューラルネットワーク（Deep Neural Network ; DNN）を用いて決定木を代替する手法がある．この手法により，テキスト情報から音声パラメータへの依存関係を効率的に表現することができるが，この手法では音声合成しか行うことができない．音声認識を行いたい場合は，音声認識器をまた別に用意して学習する必要があり，その場合学習コストが余分にかかってしまう．そこで，本研究では，学習コストの削減を目的とし，生成モデルである Deep Relational Model （DRM）を用いてテキスト・音声間の双方向の関係性を表現することで，DNN 音声認識器と DNN 音声合成器を同時に事前学習することができる手法を提案する．評価実験では，音声認識と音声合成の 2 つのタスクにおいて，提案手法により事前学習された DNN が，パラメータの初期値をランダムに与えた DNN よりも優れていることが示された．

論文抄録(英)

内容記述タイプ

Other

内容記述

Conventional approaches to statistical parametric speech synthesis use context-dependent hidden Markov models (HMMs) clustered using decision trees to generate speech parameters from linguistic features. However, decision trees are not always appropriate to model complex context dependencies efficiently. Although an alternative scheme based on a deep neural network (DNN) was presented as a possible way to overcome the difficulty, this approach has a restriction that it is applied for only speech synthesis; for example, this approach cannot be applied for speech recognition. Thus, systems for speech recognition requires training cost separately. This paper proposes a pre-training method for DNN based speech recognition and synthesis by capturing deep relationships between text and speech using deep relational model (DRM) to reduce training costs. Experimental results show that pre-trained DNN-based systems using the proposed method outperformed randomly initialized DNN-based systems.

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10438388

書誌情報

研究報告音楽情報科学（MUS）

巻 2017-MUS-115, 号 40, p. 1-6, 発行日 2017-06-10

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8752

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-20 04:10:34.064463

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法

× 曾根, 健太郎

× 中鹿, 亘

× 南, 泰浩

× Kentaro, Sone

× Toru, Nakashika

× Yasuhiro, Minami

Versions

Share

Cite as

エクスポート