WEKO3
アイテム
非同期音声収録を用いた遠隔発話音声認識
https://ipsj.ixsq.nii.ac.jp/records/101349
https://ipsj.ixsq.nii.ac.jp/records/101349979f2620-78d5-4292-bb6b-1216972c21d7
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2100年1月1日からダウンロード可能です。
|
Copyright (c) 2014 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.\n
|
|
MUS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-05-17 | |||||||
タイトル | ||||||||
タイトル | 非同期音声収録を用いた遠隔発話音声認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Distant-talking Speech Recognition with Asynchronous Speech Recording | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
静岡大学 | ||||||||
著者所属 | ||||||||
静岡大学 | ||||||||
著者所属 | ||||||||
長岡技術科学大学 | ||||||||
著者所属 | ||||||||
静岡大学 | ||||||||
著者所属 | ||||||||
静岡大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Shizuoka University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Shizuoka University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nagaoka University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Shizuoka University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Shizuoka University | ||||||||
著者名 |
寺岡, 俊汰
× 寺岡, 俊汰
|
|||||||
著者名(英) |
Shunta, Teraoka
× Shunta, Teraoka
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 携帯端末を使用したアプリケーションへの注目は高まっているが,複数の携帯端末を用いた非同期音声収録による遠隔発話音声認識に着目した研究は少ない.本研究では,非同期音声収録を前提とした遠隔発話環境に頑健な音声認識システムを提案する.本研究で提案するシステムは,まず残響抑圧のためにケプストラム領域で denoising autoencoder(DAE) を適用し大語彙連続音声認識 (LVCSR) を行う.その後,音声セグメント単位での収録マイクチャンネル (携帯端末) の自動選択と環境適応を行うことで実現する.提案手法は,WSJCAM0 コーパスからの発話を複数のスピーカーから発し,それを遠方に設置された複数の携帯端末で録音することで疑似的な会議音声を作成し評価する.ケプストラム領域での DAE と自動的な携帯端末選択,環境適応を統合することで,単語誤り率 (WER) はベースラインである 51.8%から 28.8%まで削減,すなわち 44.4%の相対誤り削減率を達成した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Although applications using mobile terminals have attracted increasing attention, there are few studies that focus on distant-talking speech recognition with asynchronous recording using several mobile terminals. In this paper, we propose a robust distant-talking speech recognition system with asynchronous speech recording. For the system proposed in this paper, after applying a denoising autoencoder in the cepstral-domain of speech to suppress reverberation and performing Large Vocabulary Continuous Speech Recognition (LVCSR), we adopted automatic asynchronous mobile terminal selection and environment adaptation using speech segments from optimal mobile terminals. The proposed method was evaluated using a reverberant WSJCAMO corpus, which was emitted by a loudspeaker and recorded in a meeting room with multiple speakers by far-field multiple mobile terminals. By integrating a cepstral-domain denoising autoencoder and automatic mobile terminal selection with environment adaptation, the average Word Error Rate (WER) was reduced from 51.8% of the baseline system to 28.8%, i.e., the relative error reduction rate was 44.4% when using multi-condition acoustic models. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10438388 | |||||||
書誌情報 |
研究報告音楽情報科学(MUS) 巻 2014-MUS-103, 号 32, p. 1-5, 発行日 2014-05-17 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |