Item type |
SIG Technical Reports(1) |
公開日 |
2017-12-14 |
タイトル |
|
|
タイトル |
テンソルトレイン分解によるEnd-to-End自動音声認識モデルの圧縮 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声認識 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者名 |
森, 巧磨
Andros, Tjandra
Sakriani, Sakti
中村, 哲
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
大規模な音声コーパスが作成され,自動音声認識 (ASR) を学習する統計学習法として大規模なニューラルネットワークで使用されるようになった.また,簡単で強力な方法として,殆どのモジュールを単一のモデルとして学習する End-to-End 自動音声認識の研究が行われている.ニューラルネットワークを用いた音声認識は,たくさんのパラメータを有し,新しいデータの学習および予測のために多くの計算資源を必要とする.パラメータが増える原因の一つとして,時系列タスクをモデリングし,様々な複雑な問題を解析する手法としてリカレントニューラルネットワーク (RNN) を使うことがあげられる.音声認識は音声要約,自動コールセンター,音声翻訳などの多くのアプリケーションの重要なコンポーネントである.したがって,多くの場面でこのモデルを使えるようにするためには,メモリを削減して,軽量なモデルとする必要がある.本稿では,リカレントネットワークの中間層をテンソル表現し,それらを効率的に分解するテンソルトレイン分解により,パラメータ数を大幅に削減する代替 RNN モデルを提案する.我々は,Libri Speech において非圧縮ゲーティッドリカレントユニット (GRU) モデルとテンソルトレイン分解により圧縮した GRU モデルを比較評価し,パラメータの数を大幅に削減しながら性能を維持することを示した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2017-SLP-119,
号 18,
p. 1-4,
発行日 2017-12-14
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |