WEKO3
アイテム
マルチモーダル音声認識におけるストリーム重みの教師なし推定法の検討
https://ipsj.ixsq.nii.ac.jp/records/62366
https://ipsj.ixsq.nii.ac.jp/records/62366354499d9-81b3-411e-8f9f-360b5c2f5fe6
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-05-14 | |||||||
タイトル | ||||||||
タイトル | マルチモーダル音声認識におけるストリーム重みの教師なし推定法の検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A study on unsupervised stream - weight estimation for multimodal speech recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 音声・対話 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京都市大学環境情報学部情報メディア学科 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Environmental and Information Studies, Tokyo City University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Tokyo Institute of Technology | ||||||||
著者名 |
岩野, 公司
× 岩野, 公司
|
|||||||
著者名(英) |
Koji, Iwano
× Koji, Iwano
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,対話システムへの利用を想定したマルチモーダル音声認識のための,音響・画像ストリーム重みの教師なし推定手法の提案を行う.提案手法では,まず,クリーン環境における最適重みと,それぞれのストリームのエントロピーを事前に計算しておく.システム利用時の雑音環境において,それぞれのストリームのエントロピーを計算し,それがクリーン環境で観測されたものからどれだけ変化しているかに応じて,重みを調整する手法である.複数の男性話者の発声が収録されたマルチモーダルデータベースを利用して提案手法の評価を行ったところ,様々な雑音条件において,Misraらが提案している従来までのエントロピーに基づく教師なし推定手法よりも,提案手法が良好な性能を示すことが確認された. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes an unsupervised stream-weight estimation method for an audio - visual speech recognizer constructed for spoken dialogue systems. In the proposed method, audio and visual stream weights are optimized and stream entropies of the audio and visual signals are calculated in advance in the clean condition. In the weight estimation process, the stream entropies under an actual noisy condition are calculated and compared with those of the clean condition. And then the stream weights are adaptively controlled according to the differences of entropies between the clean and noisy conditions. Evaluations were conducted by using an audio-visual speech database collected from multiple male speakers. Experimental results show that the proposed method yields better performance in various noise conditions than the entropy - based unsupervised weight estimation method proposed by Misra et al. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2009-SLP-76, 号 24, p. 1-6, 発行日 2009-05-14 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |