| Item type |
SIG Technical Reports(1) |
| 公開日 |
2014-12-08 |
| タイトル |
|
|
タイトル |
話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Speaker adaptation using speaker-normalized DNN based on speaker codes |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスター・デモセッション |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京大学 |
| 著者所属 |
|
|
|
東京大学 |
| 著者所属 |
|
|
|
東京大学 |
| 著者所属 |
|
|
|
東京大学 |
| 著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
| 著者名 |
柏木, 陽佑
齋藤, 大輔
峯松, 信明
広瀬, 啓吉
|
| 著者名(英) |
Yosuke, Kashiwagi
Daisuke, Saito
Nobuaki, Minematsu
Keikichi, Hirose
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,自動音声認識において,その高い認識性能により,deep neural network(DNN) を用いた音響モデルが台頭している.しかし,一般に,DNN 音響モデルは不特定話者のデータで学習されるため,特徴量の分布が実際の特定話者の分布と大きく異なる.したがって,さらなる認識性能の向上のため,DNN 音響モデルの話者適応が注目されている.この内の一つとして,話者コードを用いた DNN の話者適応手法が提案されている.この方法では,話者依存と非依存のネットワークパラメータを別々に学習しており,話者依存/非依存の情報を明確に分離できているとは言えない.一方,話者依存/非依存パラメータの同時推定手法として話者依存層の切り替えによる話者正規化学習も提案されているが,back propagation において話者依存層を切り替える必要があり,学習コストが非常に大きい.そこで,本稿では話者適応の性能向上を目的とした,話者コードをベースとした話者正規化学習と,これを用いた話者適応手法を提案する.話者コードにより話者の情報を制御することで学習時に話者依存の情報と非依存の情報を分け,話者依存/非依存パラメータを同時に学習することにより効果的なネットワークの学習が可能となる.また,話者コードをベースとすることにより,各層のバイアスパラメータを話者コードにより制御することができる.この結果,層のパラメータを切り替える必要がなく,back propagation 時の学習コストの増加を抑えることが可能となる.提案手法の性能を TIMIT データベースを用いた連続音素認識により評価を行い,5.7% の音素認識誤りの削減を実現した. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Recently, deep neural network (DNN) becomes one of the main streams of acoustic modeling for automatic speech recognition. Further, speaker adaptation techniques have been tested for DNN-based speech recognition, including one based on a framework of bias adaptation using speaker codes. This paper introduces speaker-nor malized training to this framework and experimentally shows its effectiveness. In the conventional method using speaker codes, two kinds of networks of speaker-independent (SI) DNNs and subnetworks for speaker adaptation were trained sequentially. We expect that, by training the SI networks and the subnetworks simultaneously, this method can be tuned so that it can handle both SI information and speaker-dependent (SD) information more adequately. Further, different from.the conventional method, the speaker code vector is generated through networks from a 1-of-N speaker representation. This will reduce the training cost of the SI models and the subnetworks and avoid the over-fitting problem. Experimental evaluations using the TIMIT database demonstrate that our proposed training method can reduce the phoneme error rate by 5.7% relative. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2014-SLP-104,
号 20,
p. 1-6,
発行日 2014-12-08
|
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |