ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音楽情報科学(MUS)
  3. 2017
  4. 2017-MUS-115

テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法

https://ipsj.ixsq.nii.ac.jp/records/182242
https://ipsj.ixsq.nii.ac.jp/records/182242
2b7e55f2-6aba-4d26-a694-5f5a4b8805a0
名前 / ファイル ライセンス アクション
IPSJ-MUS17115040.pdf IPSJ-MUS17115040.pdf (1.1 MB)
Copyright (c) 2017 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2017-06-10
タイトル
タイトル テキスト・音声間の双方向変換に基づくDNN音声認識・合成のための事前学習法
タイトル
言語 en
タイトル Pre-training Method for DNN-based Speech Recognition and Synthesis Based on Bidirectional Conversion between Text and Speech
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
電気通信大学大学院情報理工学研究科情報・ネットワーク工学専攻
著者所属
電気通信大学大学院情報理工学研究科情報・ネットワーク工学専攻
著者所属
電気通信大学大学院情報理工学研究科情報・ネットワーク工学専攻
著者所属(英)
en
UEC
著者所属(英)
en
UEC
著者所属(英)
en
UEC
著者名 曾根, 健太郎

× 曾根, 健太郎

曾根, 健太郎

Search repository
中鹿, 亘

× 中鹿, 亘

中鹿, 亘

Search repository
南, 泰浩

× 南, 泰浩

南, 泰浩

Search repository
著者名(英) Kentaro, Sone

× Kentaro, Sone

en Kentaro, Sone

Search repository
Toru, Nakashika

× Toru, Nakashika

en Toru, Nakashika

Search repository
Yasuhiro, Minami

× Yasuhiro, Minami

en Yasuhiro, Minami

Search repository
論文抄録
内容記述タイプ Other
内容記述 統計的パラメトリック音声合成への従来のアプローチは,テキスト情報から音声パラメータを生成するために,決定木を用いてクラスタリングされた文脈依存隠れマルコフモデル (Hidden Markov Model ; HMM) を用いる.しかし,決定木は,複雑なコンテキストの依存関係を効率的にモデル化できないことが知られている.その問題を解決するため,深層ニューラルネットワーク (Deep Neural Network ; DNN) を用いて決定木を代替する手法がある.この手法により,テキスト情報から音声パラメータへの依存関係を効率的に表現することができるが,この手法では音声合成しか行うことができない.音声認識を行いたい場合は,音声認識器をまた別に用意して学習する必要があり,その場合学習コストが余分にかかってしまう.そこで,本研究では,学習コストの削減を目的とし,生成モデルである Deep Relational Model (DRM) を用いてテキスト ・ 音声間の双方向の関係性を表現することで,DNN 音声認識器と DNN 音声合成器を同時に事前学習することができる手法を提案する.評価実験では,音声認識と音声合成の 2 つのタスクにおいて,提案手法により事前学習された DNN が,パラメータの初期値をランダムに与えた DNN よりも優れていることが示された.
論文抄録(英)
内容記述タイプ Other
内容記述 Conventional approaches to statistical parametric speech synthesis use context-dependent hidden Markov models (HMMs) clustered using decision trees to generate speech parameters from linguistic features. However, decision trees are not always appropriate to model complex context dependencies efficiently. Although an alternative scheme based on a deep neural network (DNN) was presented as a possible way to overcome the difficulty, this approach has a restriction that it is applied for only speech synthesis; for example, this approach cannot be applied for speech recognition. Thus, systems for speech recognition requires training cost separately. This paper proposes a pre-training method for DNN based speech recognition and synthesis by capturing deep relationships between text and speech using deep relational model (DRM) to reduce training costs. Experimental results show that pre-trained DNN-based systems using the proposed method outperformed randomly initialized DNN-based systems.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10438388
書誌情報 研究報告音楽情報科学(MUS)

巻 2017-MUS-115, 号 40, p. 1-6, 発行日 2017-06-10
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8752
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-20 04:10:34.064463
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3