WEKO3
アイテム
Deep Neural Networkを用いたマルチモーダル音声認識の為の特徴量学習
https://ipsj.ixsq.nii.ac.jp/records/104790
https://ipsj.ixsq.nii.ac.jp/records/10479059934fd8-218c-40f5-8c1e-4ca6e87441ed
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | National Convention(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2014-03-11 | |||||||||||||
タイトル | ||||||||||||||
タイトル | Deep Neural Networkを用いたマルチモーダル音声認識の為の特徴量学習 | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
キーワード | ||||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 人工知能と認知科学 | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||||
資源タイプ | conference paper | |||||||||||||
著者所属 | ||||||||||||||
京大 | ||||||||||||||
著者所属 | ||||||||||||||
早大 | ||||||||||||||
著者所属 | ||||||||||||||
ホンダRIJ | ||||||||||||||
著者所属 | ||||||||||||||
京大 | ||||||||||||||
著者所属 | ||||||||||||||
早大 | ||||||||||||||
著者名 |
山口雄紀
× 山口雄紀
× 野田邦昭
× 中臺一博
× 奥乃博× 尾形哲也
|
|||||||||||||
論文抄録 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 本研究の目標は,マルチモーダル音声認識の為の画像特徴量の設計である.マルチモーダル音声認識の精度向上のためには,唇画像からどのようにして音声認識の最小単位である音素や口形素を表現する情報を取り出すかが重要な課題である.本研究では,特徴量学習の新たな手法として注目を集めているDeep Neural Network (DNN)を用いて大量の唇画像から画像特徴量を自己組織的に抽出する手法を構築した.得られた画像特徴量を孤立単語認識タスクで検証するとともに特徴量空間を解析する事で口形素との関連についても考察した.また,得られた画像特徴量と音声を用いた視聴覚統合によるノイズ頑健性の向上について検証を行った. | |||||||||||||
書誌レコードID | ||||||||||||||
収録物識別子タイプ | NCID | |||||||||||||
収録物識別子 | AN00349328 | |||||||||||||
書誌情報 |
第76回全国大会講演論文集 巻 2014, 号 1, p. 465-466, 発行日 2014-03-11 |
|||||||||||||
出版者 | ||||||||||||||
言語 | ja | |||||||||||||
出版者 | 情報処理学会 |