WEKO3
アイテム
Google N-gramを用いた音声認識のタスク汎用性評価の試み
https://ipsj.ixsq.nii.ac.jp/records/67060
https://ipsj.ixsq.nii.ac.jp/records/67060c395a882-29e0-45fc-be9f-914a30a9bea9
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-12-14 | |||||||
タイトル | ||||||||
タイトル | Google N-gramを用いた音声認識のタスク汎用性評価の試み | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Evaluation of the Task Versatility of Google N-gram Models in Speech Recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 【Session-10 一般(ポスターセッション)】 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科/現在,ヤフー株式会社 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of science and Technology / Presently with Yahoo Japan Corporation. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Information Science, Nara Institute of science and Technology | ||||||||
著者名 |
久保, 慶伍
三宅, 純平
川波, 弘道
猿渡, 洋
鹿野, 清宏
× 久保, 慶伍 三宅, 純平 川波, 弘道 猿渡, 洋 鹿野, 清宏
|
|||||||
著者名(英) |
Keigo, Kubo
Jumpei, Miyake
Hiromichi, Kawanami
Hiroshi, Saruwatari
Kiyohiro, Shikano
× Keigo, Kubo Jumpei, Miyake Hiromichi, Kawanami Hiroshi, Saruwatari Kiyohiro, Shikano
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年,多様な発話に対応可能な音声対話システムの研究が行われている.その 1 つのアプローチにタスク外発話を検出し,Web 検索で処理する方法がある.しかし,一般に音声対話システムの言語モデルはタスク内の発話を認識できるようドメインを限定して構築されているため,多様性があるタスク外発話を精度良く認識できない.そこで,タスク外発話においてもある程度の認識性能を出せる汎用性の高い言語モデルが必要となる.本報告では,大規模テキストコーパスである Google N-gram (正式名称: Web 日本語Nグラム第 1 版)を用いて言語モデルを構築し,その汎用性を 3 種類の音声データで評価した.読みは形態素解析器 mecab を用いて自動的に付与した.3 種類の音声データにおける単語正解率と単語正解精度を求めた結果,GoogleN-gram から構築した言語モデルは,音声データのドメインに合っている言語モデルよりも性能が劣るものの,新聞コーパスモデルと同等の単語正解率を得た.ただし,今回評価した Google N-gram の言語モデルはあくまでもベースラインであり,誤った読み付与を含んでいるなどの問題点がある.これらを改善すれば,より性能を向上できると考えられる.また,構築した Google N-gram の言語モデルは 3-gram であり,Google N-gram の最大の特徴であるデータ量を有効に活用して 4-gram や 5-gram のモデルを構築すれば,さらなる性能の向上が期待できる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In recent years, spoken dialogue systems capable of responding to various utterances have been studied. For example, there is an approach that detects out-of-task utterances and process them by the Web retrieval. However, in general, a language model in a spoken dialogue system is built to recognize in-task utterances. Therefore, it is difficult for a spoken dialogue system to recognize various out-of-task utterances with high accuracy. In this report, we constructed a tri-gram language model using the Google N-gram, which is a large text Corpus, and evaluated the versatility of the model with three types of speech data. As the Google N-gram does not include readings, they are automatically given by the morphological analyzer mecab. Results on word correct rate and word accuracy show that the language model built from Google Ngram is inferior to the models that customized for the domain. However, the model has equal performance to the JNAS, the Newspaper language model, on word correct rate. It should be mentioned that the evaluations contained in this report are the first trial and baseline results of the model. Because there are still several problems, such as wrong reading included in the Corpus, we can expect improvements in the performance by correcting them. In addition, as the language model built here is a tri-gram model, If 4-gram or 5-gram models are introduced, further improvement is also expected. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
音声言語情報処理(SLP) 巻 2009-SLP-79, 号 33, p. 1-6, 発行日 2009-12-14 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |