WEKO3
アイテム
帯域フィルタ出力の時間変化特徴量を利用したニュース音声認識
https://ipsj.ixsq.nii.ac.jp/records/56952
https://ipsj.ixsq.nii.ac.jp/records/56952e195f4c3-4ccf-4725-a21d-727b5689073e
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2005 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2005-12-22 | |||||||
タイトル | ||||||||
タイトル | 帯域フィルタ出力の時間変化特徴量を利用したニュース音声認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Temporal Properties of Band-Pass Outputs for News Speech Recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
NHK放送技術研究所 | ||||||||
著者所属 | ||||||||
NHK放送技術研究所 | ||||||||
著者所属 | ||||||||
NHK放送技術研究所 | ||||||||
著者所属 | ||||||||
NHK放送技術研究所 | ||||||||
著者所属 | ||||||||
NHK放送技術研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Science and Technical Research Laboratories Japan Broadcasting Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Science and Technical Research Laboratories Japan Broadcasting Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Science and Technical Research Laboratories Japan Broadcasting Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Science and Technical Research Laboratories Japan Broadcasting Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Science and Technical Research Laboratories Japan Broadcasting Corporation | ||||||||
著者名 |
尾上, 和穂
× 尾上, 和穂
|
|||||||
著者名(英) |
Kazuo, ONOE
× Kazuo, ONOE
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | ニュース番組の自動字幕化のための音声認識では、雑音の混入した音声や対談調の音声の対策が課題となっている。筆者らは、人間の音声知覚に関する知見を考慮し、認識に重要とされる様々な音響特徴量を組み合わせることで、より頑健な音声認識を目指している。これまで、帯域フィルタ出力の時間変化量に着目した特徴量(Band-pass filtered outputs’ Temporal property feature:BÅT特徴量)を提案しているBAT特徴量は、知覚に重要な時間方向の変動成分だけを帯域ごとに独立して抽出することで、別の帯域に混入した雑音の影響などの軽減が期待される。本稿では、BAT特徴量の最適な分析パラメータと、主成分分析や判別分析による次元数の削減効果を報告する。ニュース番組中の中継と対談調の音声の認識実験の結果、帯域の分割数15、時間方向の抽出窓幅150msecが最適であり、主成分分析による次元数削減によって従来特徴量と同等の認識精度が得られた。さらに、次元数を削減したBAT特徴量とMFCCやPLPを組み合わせることで、従来特徴量に対して最大で10.6%の誤り削減率が得られた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Speech recognition with noisy background or spontaneous speaking style in news programs is an important issue for simultaneous closed-captioning. Considering knowledge about human's auditory perception, we are investigating an acoustic feature of temporal properties of band-pass outputs, which we call a BAT feature (Band-pass filtered outputs' Temporal property feature). Since it extracts perceptually important temporal components in each band-pass independently, less influence of noise in other bands is expected. This paper describes its optimum analysis parameters, effect of dimension reduction by the principal component analysis or the linear discriminative analysis, and its combination with a conventional acoustic feature. In recognition experiments of field reports and conversational speech in news programs, the proposed feature showed the best recognition accuracy with l5 bands and 150ms of a temporal window. The proposed feature with the principal component analysis gave the same recognition accuracy as a conventional feature and their combination yielded the maximum word error reduction rate of 10.6%. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2005, 号 127(2005-SLP-059), p. 169-174, 発行日 2005-12-22 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |