WEKO3
アイテム
スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識
https://ipsj.ixsq.nii.ac.jp/records/56576
https://ipsj.ixsq.nii.ac.jp/records/56576799a4c9d-1526-4252-99f7-8a67a915821e
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-12-02 | |||||||
タイトル | ||||||||
タイトル | スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Two-channel input speech recognition using sparsness-based blind source separation | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学情報理工学系研究科システム情報学専攻 | ||||||||
著者所属 | ||||||||
東京大学情報理工学系研究科システム情報学専攻 | ||||||||
著者所属 | ||||||||
日本電信電話(株)NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
東京大学情報理工学系研究科システム情報学専攻 | ||||||||
著者所属 | ||||||||
東京大学情報理工学系研究科システム情報学専攻 | ||||||||
著者所属 | ||||||||
東京大学情報理工学系研究科システム情報学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Physics and Computing, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Physics and Computing, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science LaboratoriesDepartment of Information Physics and Computing, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Physics and Computing, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Physics and Computing, University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Physics and Computing, University of Tokyo | ||||||||
著者名 |
西亀, 健太
× 西亀, 健太
|
|||||||
著者名(英) |
Kenta, Nishiki
× Kenta, Nishiki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿ではスパース性に基づくブラインド音源分離をフロントエンドに用いた雑音残響下における 2 チャンネル入力音声認識を提案する. 2 チャンネルブラインド音源分離により観測音からターゲット音声が分離される.本稿で用いた音源分離手法ではEMアルゴリズムによって設計された時間周波数マスキングを行うことにより残響などの拡散性雑音下でも精度よく音源分離を行うものである.音源分離後に残った歪みや,新たに生じた歪みに関しては Cepstral Mean Nomalization による抑圧を行う提案手法に対し,複数妨害音および残響の存在下における連続数字音声認識タスクにおいて提案手法の有効性を確認し,特に残響下で比較手法より高い認識性能を実現した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper discusses a two-channel input speech recognition using a sparsness-based blind source sep aration. The target speech is extracted from observed signals under diffusive noises (e.g. reverberation) by the source separation technique where a time-frequency mask is dynamically designed for speech separation using the EM algorithm. Cepstral Mean Normalization is exploited to reduce a remaining distortions or a newly introduced distortions in separated speech features. In a connected digit recognition task with multiple noise sources, the proposed method drastically improved the word accuracy in anechoic and reverberant environments. The proposed method achieved higher performance especially in a reverberant environment than conventional methods. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2008, 号 123(2008-SLP-074), p. 1-6, 発行日 2008-12-02 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |