WEKO3
アイテム
複数のバックオフN - gramを動的補間する言語モデルの高精度化
https://ipsj.ixsq.nii.ac.jp/records/57161
https://ipsj.ixsq.nii.ac.jp/records/5716184970059-be7d-4744-9226-dc88f87c8724
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-12-18 | |||||||
タイトル | ||||||||
タイトル | 複数のバックオフN - gramを動的補間する言語モデルの高精度化 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Performance Improvement of the Language Model Using Adaptive Interpolation of Multiple Back - off N - gram Models | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院情報理工学系研究科 | ||||||||
著者所属 | ||||||||
東京大学大学院新領域創成科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science and Technology, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Frontier Sciences, University of Tokyo | ||||||||
著者名 |
高橋, 力矢
× 高橋, 力矢
|
|||||||
著者名(英) |
Rikiya, Takahashi
× Rikiya, Takahashi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では複数のN-gramモデルを動的補間する言語モデルとその高精度化手法について述べる。複数のN-gramモデルを動的保間する言語モデルは二つの要素技術から成り立つ。それは学習テキスト内のドメイン毎に最適化されたサブ言語モデル群と、各言語モデルの動的補間比を認識仮説や履歴から推定するための手法である。モデル学習に関しては、繰り返しアルゴリズムを用いるが、バックオフN-gramを構築していく際に,通常の学習アルゴリズムではオープンデータに対する精度が確保できない。そこで本稿では新たにスムージングとの組み合せを考慮した学習手順を提案している。補間比推定に関しては、Dirichlet分布を事前分布としたベイズ推定を用いる。モデルの評価は補正パープレキシティ及び大語彙音声認識における認識率の双方から行った。その結果、trigramモデルを動的補間した場合でオープンデータに対して約5%の補正パープレキシティ定価を得た。認識率に関しては従来のtrigramモデルより若干低下または上昇した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a new language modeling technique implemented as a multi-mixture model by adaptively interpolating sub-models. Multi-mixture language models (LMs) are built on two components. One is a group of sub-models optimized for domains found in training data and the other is a scheme for context-adaptive and efficient interpolation of the sub-models based on history in recognition hypotheses. In this work, for training sub-models, iterative algorithms of training multiple N-gram models are adopted. In our case, however, models trained by traditional EM algorithms could not outperform in open data. Thus, a new scheme connecting training algorithms and back-off smoothing of the LMs is also proposed. As for interpolating the sub-models, Bayesian inference using Dirichlet distribution for the prior distribution is adopted. Evaluation of the proposed technique is carried out in two view-points; perplexity reduction and large-vocabulary continuous speech recognition (LVCSR) performance improvement. In the first, the proposed LM achieves about 5% relative reduction of adjusted perplexity in an open data set compared to traditional trigram models. In the second, however, the recognition performance got little worse or only slightly improved. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2003, 号 124(2003-SLP-049), p. 61-66, 発行日 2003-12-18 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |