WEKO3
アイテム
話題同定に基づく言語モデル切替による対話音声認識
https://ipsj.ixsq.nii.ac.jp/records/57291
https://ipsj.ixsq.nii.ac.jp/records/57291c671737e-6399-4974-9efb-9a880f5dd8d7
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2002-12-16 | |||||||
| タイトル | ||||||||
| タイトル | 話題同定に基づく言語モデル切替による対話音声認識 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Language Model Switching Based on Topic Detection for Dialog Speech Recognition | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 京都大学情報学研究科/ATR音声言語コミュニケーション研究所 | ||||||||
| 著者所属 | ||||||||
| 京都大学情報学研究科/ATR音声言語コミュニケーション研究所 | ||||||||
| 著者所属 | ||||||||
| ATR音声言語コミュニケーション研究所 | ||||||||
| 著者所属 | ||||||||
| ATR音声言語コミュニケーション研究所 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| School of Informatics, Kyoto University/ATR Spoken Language Translation Laboratories | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| School of Informatics, Kyoto University/ATR Spoken Language Translation Laboratories | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| ATR Spoken Language Translation Laboratories | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| ATR Spoken Language Translation Laboratories | ||||||||
| 著者名 |
LaneIanR.
河原, 達也
松井, 知子
中村, 哲
× LaneIanR. 河原, 達也 松井, 知子 中村, 哲
|
|||||||
| 著者名(英) |
Ian, R.Lane
Tatsuya, Kawahara
Tomoko, Matsui
Satoshi, Nakamura
× Ian, R.Lane Tatsuya, Kawahara Tomoko, Matsui Satoshi, Nakamura
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 複数ドメインの対話システムを構築するために話題同定と話題依存の言語モデルを用いた音声認識手法を提案する。本手法では、ユーザの発話(初期認識結果)から話題を自動的に検出し、その話題に依存した言語モデルを用いて(再度)音声認識を行う。これにより、ドメイン数に関係なく効率性を維持しながら、認識制度の改善を実現する。本稿では、unigram尤度とSVMに基づく話題同定法を実装・比較する。さらに、話題同定誤りに頑健に対処するため、階層的な言語もモデルの枠組みを提案する。本手法により、単一の言語モデルに比べて、単語誤り率が10.3%改善され、複数の言語モデルを並列に用いた場合と比べて、はるかに少ない計算量で同等の認識精度を得ることができた。 | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | An efficient, scalable speech recognition architecture is proposed for multi-domain dialog systems by combining topic detection and topic-dependent language modeling. The inferred domain is automatically detected from the user's utterance, and speech recognition is then performed with an appropriate domain-dependent language model. The architecture improves accuracy and efficiency over current approaches and is scaleable to a large number of domains. In this paper, unigram likelihood and SVM based topic detection methods are compared. A novel framework using a multi-layer hierarchy of language models is also introduced in order to improve robustness against topic detection errors. The proposed system provides a relative reduction in WER of 10.3% over a single language model system. Furthermore, it achieves an accuracy that is comparable to using multiple language models in parallel while requiring only a fraction of the computational cost. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10442647 | |||||||
| 書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2002, 号 121(2002-SLP-044), p. 147-152, 発行日 2002-12-16 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||