| Item type |
SIG Technical Reports(1) |
| 公開日 |
2018-02-13 |
| タイトル |
|
|
タイトル |
CTCによる文字単位のモデルを併用したAttentionによる単語単位のEnd-to-End音声認識 |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者所属 |
|
|
|
京都大学大学院情報学研究科 |
| 著者名 |
上乃, 聖
稲熊, 寛文
三村, 正人
河原, 達也
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
End-to-End 音声認識が従来の DNN-HMM ハイブリッド音声認識よりも高速で簡潔であることから注目されている.特に入力の音響特徴量から出力の単語列に直接変換する単語単位 End-to-End 音声認識は外部の言語モデルが必要なく,更なる簡潔性が期待される.しかし,出現頻度の低い単語に関する学習データのスパース性が問題となる.そこで本稿では文字を出力単位としたモデルを併用する単語単位モデルを提案する.文字単位モデルを併せて学習することで単語単位モデルのオーバーフィットを軽減することが期待できる.また,単語単位モデルが未知語を出力した際に文字単位モデルで対応する文字列を参照することで未知語の推定を行う.提案手法を 「日本語話し言葉コーパス」 (CSJ) で評価を行なった結果,従来のハイブリッド音声認識よりも非常に速い処理時間で同等以上の認識精度を実現し,さらに種々の改善手法により高い性能が得られた. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2018-SLP-120,
号 16,
p. 1-6,
発行日 2018-02-13
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |