WEKO3
アイテム
0 - gram汎用LVCSRと音素弁別特徴ベクトルを利用した 対話音声認識の検討
https://ipsj.ixsq.nii.ac.jp/records/57302
https://ipsj.ixsq.nii.ac.jp/records/57302170d50c8-a4eb-4a77-9e36-5315e39cdd71
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2002 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2002-12-16 | |||||||
タイトル | ||||||||
タイトル | 0 - gram汎用LVCSRと音素弁別特徴ベクトルを利用した 対話音声認識の検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Recognition of Spontaneous Speech by Using a General - Purpose LVCSR with 0 - gram and Distinctive Phonetic Features | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
豊橋技術科学大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Toyohashi University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Toyohashi University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Toyohashi University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Toyohashi University of Technology | ||||||||
著者名 |
伊勢路, 真吾
× 伊勢路, 真吾
|
|||||||
著者名(英) |
Shingo, Iseji
× Shingo, Iseji
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本報告では汎用LVCSRソフトウェアを利用して,対話音声を高精度で認識する方法を提案する.提案方式は,LVCSRが出力する音素系列で弁別的な特徴ベクトル系列に変換した後,対話管理部が指示する対話記述(語彙と文法)を利用してキーワードをスポッティングする.本方式の特徴は以下の二点にある.(1)LVCSRの言語制約を緩めることにより(0-gram,挿入ペナルティ有),LVCSRの持つ高い音素識別能力を最大限に利用している.(2)音素系列出力を弁別的な特徴ベクトル系列に置き換え,キーワードスポッティングを行うことにより,置換・脱落・付加誤りに対処している.本文では,道案内タスクの対話音声データを用いて,言語モデルにおける言語制約の違い,サブワードモデルとの比較,および混合行列を用いた整合方式との比較を行い,提案方式の有効性を示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper describes an attempt to recognize spontaneously spoken dialogue by using a general-purpose LVCSR software. In the proposed method, a phoneme string output from the LVCSR is converted into a sequence of vectors represented with distinctive phonetic features, then keywords assigned by a dialogue manager are detected from the input vector sequence. The method takes advantage of the potential abilities of: (1) precise phoneme discrimination achieved by relaxing the linguistic constraint in the LVCSR, (2) coping with the issued of substitution, deletion and insertion errors by combining a conversion process from a phoneme into a distinctive phonetic feature vector and a key-word spotting process. The proposed method shows significant improvements in comparison with the LVCSR software in an experiment with a spoken dialogue corpus of a map guidance task. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2002, 号 121(2002-SLP-044), p. 213-218, 発行日 2002-12-16 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |