Item type |
SIG Technical Reports(1) |
公開日 |
2015-11-25 |
タイトル |
|
|
タイトル |
パレート最適と進化的戦略を用いた高精度大語彙音声認識システム構築の自動化 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Automation of high performance system building for large vocabulary speech recognition using evolution strategy with pareto optimality |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声認識 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京工業大学大学院総合理工学研究科 |
著者所属 |
|
|
|
東京工業大学大学院総合理工学研究科 |
著者所属 |
|
|
|
東京工業大学大学院総合理工学研究科 |
著者所属 |
|
|
|
Mitsubishi Electric Research Laboratories |
著者所属 |
|
|
|
奈良先端科学技術大学院大学情報科学研究科 |
著者所属(英) |
|
|
|
en |
|
|
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Mitsubishi Electric Research Laboratories |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science, Nara Institute of Science and Technology (NAIST) |
著者名 |
森谷, 崇史
田中, 智大
篠崎, 隆宏
渡部, 晋治
Duh, Kevin
|
著者名(英) |
Takafumi, Moriya
Tomohiro, Tanaka
Takahiro, Shinozaki
Shinji, Watanabe
Kevin, Duh
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年 Deep Neural Network(DNN) の応用やその他諸技術の進展により音声認識システムの性能が大きく向上している.しかしこれらのシステムは多数の調整パラメタを持ち,実際に高い認識精度を実現するためには専門家による調整が必要となる.調整のための負担は非常に大きく,認識技術の高度化とともにシステムを実現する上での主要なボトルネックとなりつつある.そこで本研究では,進化的戦略を用いて自動的に大語彙音声認識システムを構築する手法を提案する.具体的には,DNN のモデル構造やモデル学習時の学習係数などのメタパラメタを共分散行列適応進化的戦略 (CMA-ES) を用いて最適化する.さらに,認識性能だけではなく学習されるモデルのサイズも考慮するため,多目的最適化手法であるパレート最適とCMA-ES を組み合わせた手法 (CMA-ES+P) についても検討する.実験では,提案手法を用いることでベースラインと比べて単語誤り率を 0.48%削減したシステムが自動で得られた.また,ベースラインと同等の認識性能を持つ DNN を選択した場合,DNN サイズを 59%削減できた.本研究で最適化したメタパラメタは Kaldi ツールキットで公開されている CSJ レシピに組み込まれている. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The performance of speech recognition tasks can be significantly improved by the use of deep neural networks (DNN). However, when building a high performance speech recognition system, the laborious effort required by human experts in tuning numerous parameters remains a prominent obstacle. In addition, computation time can be prohibitive when training large DNN models. The goal of this paper is to automate the process. We propose to tune DNN-HMM based large vocabulary speech recognition systems using the covariance matrix adaptation evolution strategy (CMA-ES) with a multi-objective Pareto optimization. This optimizes systems to achieve both high-accuracy and compact model size. Compared to a strong manually-tuned configuration borrowed from a similar system, our approach automatically discovered systems with lower WER by 0.48%, and systems with 59% smaller model size while keeping WER constant. The optimized training script is released in the Kaldi speech recognition toolkit as the first publicly available recipe for Japanese large vocabulary speech recognition. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2015-SLP-109,
号 6,
p. 1-6,
発行日 2015-11-25
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |