WEKO3
アイテム
名詞の類似表現拡張に基づくオープンドメイン音声質問応答システム用言語モデルの構築
https://ipsj.ixsq.nii.ac.jp/records/102189
https://ipsj.ixsq.nii.ac.jp/records/10218987403c4f-a386-4d27-bd8e-ae55b8e410b6
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-07-15 | |||||||
タイトル | ||||||||
タイトル | 名詞の類似表現拡張に基づくオープンドメイン音声質問応答システム用言語モデルの構築 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Open-domain Language Model Construction for Speech Driven Question Answering Employing Expansion with Similar Nouns | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | [一般論文] 言語モデル,音声認識,質問応答,分布類似度 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
値 | 情報通信研究機構ユニバーサルコミュニケーション研究所情報分析研究室 | |||||||
著者所属 | ||||||||
値 | 情報通信研究機構ユニバーサルコミュニケーション研究所情報分析研究室 | |||||||
著者所属 | ||||||||
値 | 情報通信研究機構ユニバーサルコミュニケーション研究所情報分析研究室 | |||||||
著者所属 | ||||||||
値 | 情報通信研究機構ユニバーサルコミュニケーション研究所情報分析研究室 | |||||||
著者所属 | ||||||||
値 | 情報通信研究機構ユニバーサルコミュニケーション研究所音声コミュニケーション研究室 | |||||||
著者所属 | ||||||||
値 | 情報通信研究機構ユニバーサルコミュニケーション研究所音声コミュニケーション研究室 | |||||||
著者所属 | ||||||||
値 | 情報通信研究機構ユニバーサルコミュニケーション研究所情報分析研 | |||||||
著者所属(英) | ||||||||
言語 | en | |||||||
値 | National Institute of Information and Communications Technology | |||||||
著者所属(英) | ||||||||
言語 | en | |||||||
値 | National Institute of Information and Communications Technology | |||||||
著者所属(英) | ||||||||
言語 | en | |||||||
値 | National Institute of Information and Communications Technology | |||||||
著者所属(英) | ||||||||
言語 | en | |||||||
値 | National Institute of Information and Communications Technology | |||||||
著者所属(英) | ||||||||
言語 | en | |||||||
値 | National Institute of Information and Communications Technology | |||||||
著者所属(英) | ||||||||
言語 | en | |||||||
値 | National Institute of Information and Communications Technology | |||||||
著者所属(英) | ||||||||
言語 | en | |||||||
値 | National Institute of Information and Communications Technology | |||||||
著者名 |
ヴァルガ, イシュトヴァーン
× ヴァルガ, イシュトヴァーン
|
|||||||
著者名(英) |
Istvan, Varga
× Istvan, Varga
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では,オープンドメイン音声質問応答システム「一休」で用いる音声認識 言語モデル構築手法を提案する.「一休」は,幅広いトピックの比較的短い質問文をスマートフォン経由でユーザから受け取り,大規 模なWWWコーパスから答えを探して出力する.オープンドメインの質問を正確に音声認識することを可能にする言語モデルの構 築が課題となる.既存のドメインアダプテーションの手法と,名詞の分布類似度に基づくシードコーパスの拡張を組み合わせることで,低コストで高性能の言語モデルを作成した.500文のシードコーパスと6億文のWWWコーパスから41万語を網羅する言語モデルを作成した.WWWコーパスからランダムに抽出した文によって構築したベースライン言語モデルを単語誤り率で3.25%改善した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This work presents a novel language model construction method for speech recognition, utilized with “Ikkyu”, an open-domain speech-based question answering system. Ikkyu accepts relatively short spoken questions concerning a large variety of topics as input through a smartphone, providing the answers retrieved from a large scale Web archive. Our challenge is to construct a language model that can accurately perform speech recognition of open domain questions with smartphones as input devices. We tackle this problem by combining an existing domain adaptation method and distributional word similarity. From 500 seed sentences and a corpus of 600 million Web pages we constructed a language model covering 413,000 words. We achieved an average improvement of 3.25 points in word error rate (WER) over a baseline model constructed from randomly sampled Web sentences. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 55, 号 7, p. 1695-1705, 発行日 2014-07-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |