WEKO3
アイテム
音声認識におけるフレームシフト再考
https://ipsj.ixsq.nii.ac.jp/records/169881
https://ipsj.ixsq.nii.ac.jp/records/169881d12e8ddf-ff3e-44f0-8166-176466985aff
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2016 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2016-07-21 | |||||||
タイトル | ||||||||
タイトル | 音声認識におけるフレームシフト再考 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Reconsidering Frame Shift in Speech Recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 特徴量・VAD | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東北大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Tohoku University | ||||||||
著者名 |
伊藤, 彰則
× 伊藤, 彰則
|
|||||||
著者名(英) |
Akinori, Ito
× Akinori, Ito
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 音声認識の特徴量抽出では,まず入力音声に時間窓をかけて局所的な信号を切り出し,音声信号の局所的な周波数情報を取り出す.この時間窓の位置を少しずつずらしながら分析を行うことで,音声の持つ周波数成分の時間変化を捉えることができる.このとき時間窓をずらす時間間隔がフレームシフトであり,典型的には 5ms~10ms に設定される.本稿では,このフレームシフトを 2 つの点から再考する.一つ目の視点は 「フレームシフトは 10ms で十分なのか?」 という点である.フレームに基づく処理は,音声信号が短い時間で大きく変化しないことを前提としているが,破裂子音などではこの前提がそもそも成立していない.そこで,10ms ごとのフレームの先頭位置のずれによって,抽出される特徴量が大きく変化することを実験的に示す.また,偶然によるフレーム位置の変動に起因する特徴量変動に対応するため,フレーム位置をずらした学習サンプルを学習に用いる方法を提案する.二つ目の視点は,「フレーム位置のずれが学習によって吸収できるのであれば,フレームシフトはもっと長くてもよいのではないか?」 という点である.フレームシフトを実験的に 60ms 程度まで長くして実験を行ったところ,フレームシフト 40ms ではフレームシフト 10ms を越える認識性能が得られ,50ms でも 10ms と同程度の認識性能が得られた.これらの条件では 1 状態 HMM (すなわち GMM) が使われており,認識のための計算量の大幅な削減が期待できる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | During the feature extraction process for speech recognition, an window function is first applied to the input waveform to extract temporally-limited spectrum. By shifting the window function with a short time period, we can analyze temporal change of speech spectrum. This time period is called “the frame shift”, which is usually 5 to 10 ms. In this paper, frame shift is re-considered from two aspects. The first one is appropriateness of 10 ms as the frame shift. The frame-based process is based on an assumption that temporal change of speech spectrum is slow enough compared with the frame shift, which does not hold for kinds of consonants such as plosives. Thus I experimentally shows that feature value fluctuates much according to the first position of frame. Then a training method is proposed that uses temporally shifted samples as independent samples to compensate fluctuation of feature caused by the difference of beginning position of a frame. The second aspect is that the frame shift could be longer if the fluctuation can be compensated. To prove this, an experiment was conducted to change frame shift from 10 to 60 ms, and it was found that the result of 40ms frame shift outperformed the result of 10 ms frame shift, and comparable recognition performance with 10 ms frame shift result was obtained with 50 ms frame shift. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2016-SLP-112, 号 10, p. 1-6, 発行日 2016-07-21 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 2188-8663 | |||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |