WEKO3
アイテム
口唇の深度画像を用いたマルチモーダル音声認識
https://ipsj.ixsq.nii.ac.jp/records/102193
https://ipsj.ixsq.nii.ac.jp/records/102193503b9d1e-425d-4359-ada6-7530ebcb5373
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-07-17 | |||||||
タイトル | ||||||||
タイトル | 口唇の深度画像を用いたマルチモーダル音声認識 | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | マルチモーダル | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属 | ||||||||
東京都市大学 | ||||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo City University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者名 |
押尾翔平
× 押尾翔平
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 音声認識の雑音耐性の向上のための手段のひとつとして,唇動画像情報を音声情報とともに利用するマルチモーダル音声認識の研究が数多く行われている.本研究では,音声認識のための画像特徴量として,従来の正面画像に加え,Microsoft Kinect から得られる深度情報を用いる手法を提案する.HMM による口唇・口腔の輪郭抽出手法に深度情報を入力として加えるほか,唇の突出などで生じる凹凸を画像特徴量として抽出する手法を導入した.日本語文音声に対する連続音声認識実験の結果,複数話者のデータを用いた際に,単語正解精度が 66.0%から 67.0%に増加し,発声時に口を尖らせる音素や舌が口腔を塞ぐような動きをする音素に対して提案手法が特に有効であることが確認された. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2014-SLP-102, 号 2, p. 1-6, 発行日 2014-07-17 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |