口唇の深度画像を用いたマルチモーダル音声認識

押尾翔平; 岩野公司; 篠田浩一

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

口唇の深度画像を用いたマルチモーダル音声認識

https://ipsj.ixsq.nii.ac.jp/records/102193

名前 / ファイル	ライセンス	アクション
IPSJ-SLP14102002 (895.0 kB)	Copyright (c) 2014 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2014-07-17

タイトル

口唇の深度画像を用いたマルチモーダル音声認識

言語

jpn

キーワード

主題Scheme

Other

主題

マルチモーダル

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

東京工業大学

著者所属

東京都市大学

著者所属

東京工業大学

著者所属(英)

Tokyo Institute of Technology

著者所属(英)

Tokyo City University

著者所属(英)

Tokyo Institute of Technology

著者名

押尾翔平

論文抄録

内容記述タイプ

Other

内容記述

音声認識の雑音耐性の向上のための手段のひとつとして，唇動画像情報を音声情報とともに利用するマルチモーダル音声認識の研究が数多く行われている．本研究では，音声認識のための画像特徴量として，従来の正面画像に加え，Microsoft Kinect から得られる深度情報を用いる手法を提案する．HMM による口唇・口腔の輪郭抽出手法に深度情報を入力として加えるほか，唇の突出などで生じる凹凸を画像特徴量として抽出する手法を導入した．日本語文音声に対する連続音声認識実験の結果，複数話者のデータを用いた際に，単語正解精度が 66.0%から 67.0%に増加し，発声時に口を尖らせる音素や舌が口腔を塞ぐような動きをする音素に対して提案手法が特に有効であることが確認された．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2014-SLP-102, 号 2, p. 1-6, 発行日 2014-07-17

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-21 10:55:19.785121

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

口唇の深度画像を用いたマルチモーダル音声認識

× 押尾翔平

Versions

Share

Cite as

エクスポート