WEKO3
アイテム
ニュース音声認識のための言語モデルと音響モデルの検討
https://ipsj.ixsq.nii.ac.jp/records/57650
https://ipsj.ixsq.nii.ac.jp/records/57650feca1784-27d0-4653-8211-2b46a0ff4493
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1998 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1998-12-10 | |||||||
タイトル | ||||||||
タイトル | ニュース音声認識のための言語モデルと音響モデルの検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Language Modeling and Acoustic Modeling for Automatic Transcription of Japanese Broadcast - News Speech | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
NTTヒューマンインタフェース研究所 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Human Interface Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology, Department of Computer Science | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology, Department of Computer Science | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology, Department of Computer Science | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology, Department of Computer Science | ||||||||
著者名 |
大附克年
× 大附克年
|
|||||||
著者名(英) |
Katsutoshi, Ohtsuki
× Katsutoshi, Ohtsuki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,放送ニュース音声認識における言語モデルおよび音響モデルについて検討した結果について報告する.我々はこれまで,単語(形態素)n-gram言語モデルと環境依存音素HMMを用いた大語葉連続音声認識システムによる放送ニュース音声の認識について検討を進めてきた.これまでの言語モデルでは,単語の読みが異なっていても表記や品詞が同じであれば同じエントリとして扱ってきたが,今回,表記が同じであっても読みの異なる単語は異なるエントリとして扱う読み依存言語モデルを構築した。放送ニュースでは,同じ話者が数文続けて発声することが多いため,入力音声の話者を識別しながら音響モデルを適応していくオンライン即時・逐次型話者適応について検討した.読み依存言語モデルを用いることにより単語誤り率が約10%改善され,オンライン話者適応を行うことにより単語誤り率が約15%改善されることが確認された.さらに,従来の音声認識で用いられている音響パラメータ系列に対して単語系列の事後確率を最大化する規準に対して,音響パラメータ系列に対して発声内容の事後確率を最大化する意図駆動音声認識を提案し,N-best候補の再評価に適用することでその効果を確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we report on language modeling and acoustic modeling studies for broadcast-news speech recognition. We have been working on the development of a large-vocabulary continuous speech recognition (LVCSR) system for Japanese broadcast-news speech transcription. We constructed a language model that depended on the readings of words, whereas, usual language models depend on written words. In broadcast-news, each speaker utters several sentences in succussion, therefore we applied on-line speaker adaptation which is applied after identifying a speaker of the sentence. The reading-dependent language model reduced word error rate by about 10%, and the on-line speaker adaptation reduced word error rate by about 15%. We propose a new formulation for speech recognition, which maximizes the a posteriori probability of the speaker's intended message for a given observed acoustic sequence. We applied this formulation to rescoring N-best hypotheses and achieved better results with it. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 1998, 号 114(1998-SLP-024), p. 89-95, 発行日 1998-12-10 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |