@techreport{oai:ipsj.ixsq.nii.ac.jp:00146178,
 author = {森谷, 崇史 and 田中, 智大 and 篠崎, 隆宏 and 渡部, 晋治 and Duh, Kevin and Takafumi, Moriya and Tomohiro, Tanaka and Takahiro, Shinozaki and Shinji, Watanabe and Kevin, Duh},
 issue = {6},
 month = {Nov},
 note = {近年 Deep Neural Network(DNN) の応用やその他諸技術の進展により音声認識システムの性能が大きく向上している.しかしこれらのシステムは多数の調整パラメタを持ち,実際に高い認識精度を実現するためには専門家による調整が必要となる.調整のための負担は非常に大きく,認識技術の高度化とともにシステムを実現する上での主要なボトルネックとなりつつある.そこで本研究では,進化的戦略を用いて自動的に大語彙音声認識システムを構築する手法を提案する.具体的には,DNN のモデル構造やモデル学習時の学習係数などのメタパラメタを共分散行列適応進化的戦略 (CMA-ES) を用いて最適化する.さらに,認識性能だけではなく学習されるモデルのサイズも考慮するため,多目的最適化手法であるパレート最適とCMA-ES を組み合わせた手法 (CMA-ES+P) についても検討する.実験では,提案手法を用いることでベースラインと比べて単語誤り率を 0.48%削減したシステムが自動で得られた.また,ベースラインと同等の認識性能を持つ DNN を選択した場合,DNN サイズを 59%削減できた.本研究で最適化したメタパラメタは Kaldi ツールキットで公開されている CSJ レシピに組み込まれている., The performance of speech recognition tasks can be significantly improved by the use of deep neural networks (DNN). However, when building a high performance speech recognition system, the laborious effort required by human experts in tuning numerous parameters remains a prominent obstacle. In addition, computation time can be prohibitive when training large DNN models. The goal of this paper is to automate the process. We propose to tune DNN-HMM based large vocabulary speech recognition systems using the covariance matrix adaptation evolution strategy (CMA-ES) with a multi-objective Pareto optimization. This optimizes systems to achieve both high-accuracy and compact model size. Compared to a strong manually-tuned configuration borrowed from a similar system, our approach automatically discovered systems with lower WER by 0.48%, and systems with 59% smaller model size while keeping WER constant. The optimized training script is released in the Kaldi speech recognition toolkit as the first publicly available recipe for Japanese large vocabulary speech recognition.},
 title = {パレート最適と進化的戦略を用いた高精度大語彙音声認識システム構築の自動化},
 year = {2015}
}