WEKO3
アイテム
大規模コーパスへのクラス付与に基づく音声対話システム用言語モデルの構築
https://ipsj.ixsq.nii.ac.jp/records/82947
https://ipsj.ixsq.nii.ac.jp/records/82947a6adf410-bdcf-4d87-8ed0-6f5bf438e168
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2012 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2012-07-12 | |||||||
タイトル | ||||||||
タイトル | 大規模コーパスへのクラス付与に基づく音声対話システム用言語モデルの構築 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Constructing Language Model for Spoken Dialogue Systems based on Assigning Semantic Classes to Large-Scale Corpus | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 言語モデル | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
名古屋大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
名古屋大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
名古屋大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Nagoya University | ||||||||
著者名 |
森祥, 二郎
× 森祥, 二郎
|
|||||||
著者名(英) |
Shojiro, Mori
× Shojiro, Mori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 音声対話システムでは地名などの固有名詞(内容語)の認識が重要である.本研究では,これをクラスとしたクラスN-gramモデルの自動作成を行う.これにはクラスが多数付与された大規模コーパスが必要であるが,個別の音声対話システムのドメインにおいて大規模コーパスの存在を仮定するのは現実的ではない.そこで我々は,類似ドメインの大規模コーパスを用い,その中で,検索対象データベース中の内容語と一致する部分を種とした機械学習を行うことで,徐々にクラス付与箇所を増加させるというアプローチを採る.これにより,内容語周辺の多様な発話パターンを認識可能な言語モデルの構築を目指す.評価実験により,提案する枠組みにより,内容語の認識率が向上する可能性を示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Content words such as proper nouns must be correctly recognized in spoken dialogue systems. We are trying to automatically construct a class N-gram model to recognize user utterances containing such content words. Although a large-scale corpus with the classes is required to construct the model, it is not realistic to assume that such a corpus is available for each individual domain of the target spoken dialogue system. We then use a similar-domain corpus and assign semantic classes to it via machine learning in a bootstrapping manner. The experimental evaluation showed that our proposed framework can improve ASR accuracy of content words. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2012-SLP-92, 号 16, p. 1-8, 発行日 2012-07-12 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |