WEKO3
アイテム
高精度なマルチモーダル音声認識の実現に向けた取り組み
https://ipsj.ixsq.nii.ac.jp/records/87725
https://ipsj.ixsq.nii.ac.jp/records/8772543c6ab2c-b9d7-47f8-bfb5-28d0ba73ad14
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2100年1月1日からダウンロード可能です。
|
Copyright (c) 2012 by the Institute of Electronics, Information and Communication Engineers
This SIG report is only available to those in membership of the SIG. |
|
SLP:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2012-12-13 | |||||||
タイトル | ||||||||
タイトル | 高精度なマルチモーダル音声認識の実現に向けた取り組み | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Recent efforts for high-performance multi-modal speech recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | オーガナイズドセッション | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
岐阜大学工学部 | ||||||||
著者所属 | ||||||||
岐阜大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
岐阜大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
岐阜大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
岐阜大学工学部 | ||||||||
著者所属 | ||||||||
岐阜大学工学部 | ||||||||
著者所属 | ||||||||
岐阜大学工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Faculty of Engineering, Gifu University | ||||||||
著者名 |
田村, 哲嗣
× 田村, 哲嗣
|
|||||||
著者名(英) |
Satoshi, Tamura
× Satoshi, Tamura
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,音声と口唇動画像を用いるマルチモーダル音声認識に関して,高精度・リアルタイムに駆動する手法の実現に向けた取り組みについて述べる.はじめに,画像特徴量抽出やマルチモーダル音声区間検出など,基本要素の技術的概要と現状について解説し,その技術課題を議論する.あわせて,これまでの我々の取り組みについて述べる.これらを基に,高い認識精度をもつリアルタイム・マルチモーダル音声認識のための高速化手法の検討を行い,実際にマルチモーダル音声認識システムを作成した.そこで構築したシステムについて技術的詳細を報告し,続いて考察および今後の展開について論述する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Regarding Multi-Modal Automatic Speech Recognition (MMASR) which uses acoustic and lip/mouth information, this paper describes recent efforts for high-performance real-time MMASR. At first, technical overviews as well as past works for fundamental technologies in MMASR, e.g. visual feature extraction and multi-modal voice activity detection, are introduced in order to discuss their technical issues. Our related works are also summarized. According to the discussion, we investigate speed-up methods for high-performance real-time MMASR, and build an MMASR system using the methods. Details of our system are then reported, and discussion as well as future works are finally described. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2012-SLP-94, 号 8, p. 1-6, 発行日 2012-12-13 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |