ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2014
  4. 2014-SLP-104

話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応

https://ipsj.ixsq.nii.ac.jp/records/107367
https://ipsj.ixsq.nii.ac.jp/records/107367
dbc33907-5024-41cb-a24a-58ed7f136729
名前 / ファイル ライセンス アクション
IPSJ-SLP14104020.pdf IPSJ-SLP14104020.pdf (602.8 kB)
 2100年1月1日からダウンロード可能です。
Copyright (c) 2014 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2014-12-08
タイトル
タイトル 話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応
タイトル
言語 en
タイトル Speaker adaptation using speaker-normalized DNN based on speaker codes
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスター・デモセッション
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
東京大学
著者所属
東京大学
著者所属
東京大学
著者所属
東京大学
著者所属(英)
en
The University of Tokyo
著者所属(英)
en
The University of Tokyo
著者所属(英)
en
The University of Tokyo
著者所属(英)
en
The University of Tokyo
著者名 柏木, 陽佑

× 柏木, 陽佑

柏木, 陽佑

Search repository
齋藤, 大輔

× 齋藤, 大輔

齋藤, 大輔

Search repository
峯松, 信明

× 峯松, 信明

峯松, 信明

Search repository
広瀬, 啓吉

× 広瀬, 啓吉

広瀬, 啓吉

Search repository
著者名(英) Yosuke, Kashiwagi

× Yosuke, Kashiwagi

en Yosuke, Kashiwagi

Search repository
Daisuke, Saito

× Daisuke, Saito

en Daisuke, Saito

Search repository
Nobuaki, Minematsu

× Nobuaki, Minematsu

en Nobuaki, Minematsu

Search repository
Keikichi, Hirose

× Keikichi, Hirose

en Keikichi, Hirose

Search repository
論文抄録
内容記述タイプ Other
内容記述 近年,自動音声認識において,その高い認識性能により,deep neural network(DNN) を用いた音響モデルが台頭している.しかし,一般に,DNN 音響モデルは不特定話者のデータで学習されるため,特徴量の分布が実際の特定話者の分布と大きく異なる.したがって,さらなる認識性能の向上のため,DNN 音響モデルの話者適応が注目されている.この内の一つとして,話者コードを用いた DNN の話者適応手法が提案されている.この方法では,話者依存と非依存のネットワークパラメータを別々に学習しており,話者依存/非依存の情報を明確に分離できているとは言えない.一方,話者依存/非依存パラメータの同時推定手法として話者依存層の切り替えによる話者正規化学習も提案されているが,back propagation において話者依存層を切り替える必要があり,学習コストが非常に大きい.そこで,本稿では話者適応の性能向上を目的とした,話者コードをベースとした話者正規化学習と,これを用いた話者適応手法を提案する.話者コードにより話者の情報を制御することで学習時に話者依存の情報と非依存の情報を分け,話者依存/非依存パラメータを同時に学習することにより効果的なネットワークの学習が可能となる.また,話者コードをベースとすることにより,各層のバイアスパラメータを話者コードにより制御することができる.この結果,層のパラメータを切り替える必要がなく,back propagation 時の学習コストの増加を抑えることが可能となる.提案手法の性能を TIMIT データベースを用いた連続音素認識により評価を行い,5.7% の音素認識誤りの削減を実現した.
論文抄録(英)
内容記述タイプ Other
内容記述 Recently, deep neural network (DNN) becomes one of the main streams of acoustic modeling for automatic speech recognition. Further, speaker adaptation techniques have been tested for DNN-based speech recognition, including one based on a framework of bias adaptation using speaker codes. This paper introduces speaker-nor malized training to this framework and experimentally shows its effectiveness. In the conventional method using speaker codes, two kinds of networks of speaker-independent (SI) DNNs and subnetworks for speaker adaptation were trained sequentially. We expect that, by training the SI networks and the subnetworks simultaneously, this method can be tuned so that it can handle both SI information and speaker-dependent (SD) information more adequately. Further, different from.the conventional method, the speaker code vector is generated through networks from a 1-of-N speaker representation. This will reduce the training cost of the SI models and the subnetworks and avoid the over-fitting problem. Experimental evaluations using the TIMIT database demonstrate that our proposed training method can reduce the phoneme error rate by 5.7% relative.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2014-SLP-104, 号 20, p. 1-6, 発行日 2014-12-08
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-21 09:03:37.126371
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3