WEKO3
アイテム
雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
https://ipsj.ixsq.nii.ac.jp/records/69905
https://ipsj.ixsq.nii.ac.jp/records/699053f36d19f-0e79-4054-a8ba-1ecce85ba957
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-07-15 | |||||||
タイトル | ||||||||
タイトル | 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | CENSREC-1-AV An evaluation framework for multimodal speech recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 頑健な音声認識 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
岐阜大学 | ||||||||
著者所属 | ||||||||
名古屋大学 | ||||||||
著者所属 | ||||||||
名古屋大学 | ||||||||
著者所属 | ||||||||
名古屋大学 | ||||||||
著者所属 | ||||||||
筑波大学 | ||||||||
著者所属 | ||||||||
神戸大学 | ||||||||
著者所属 | ||||||||
大同大学 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学 | ||||||||
著者所属 | ||||||||
立命館大学 | ||||||||
著者所属 | ||||||||
近畿大学 | ||||||||
著者所属 | ||||||||
村田機械 | ||||||||
著者所属 | ||||||||
NTTコミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
情報通信研究機構 | ||||||||
著者所属 | ||||||||
早稲田大学 | ||||||||
著者所属 | ||||||||
千葉大学 | ||||||||
著者所属 | ||||||||
情報通信研究機構 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Gifu University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
University of Tsukuba | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Daido University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toyohashi University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Ritsumeikan University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kinki University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Murata Machinery | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Information and Communications Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Waseda University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Chiba University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
National Institute of Information and Communications Technology | ||||||||
著者名 |
田村, 哲嗣
宮島, 千代美
北岡, 教英
武田, 一哉
山田, 武志
滝口, 哲也
柘植, 覚
山本, 一公
西浦, 敬信
中山, 雅人
傳田, 遊亀
藤本, 雅清
松田, 繁樹
小川, 哲司
黒岩, 眞吾
中村, 哲
× 田村, 哲嗣 宮島, 千代美 北岡, 教英 武田, 一哉 山田, 武志 滝口, 哲也 柘植, 覚 山本, 一公 西浦, 敬信 中山, 雅人 傳田, 遊亀 藤本, 雅清 松田, 繁樹 小川, 哲司 黒岩, 眞吾 中村, 哲
|
|||||||
著者名(英) |
Satoshi, Tamura
Chiyomi, Miyajima
Norihide, Kitaoka
Kazuya, Takeda
Takeshi, Yamada
Tetsuya, Takiguchi
Satoru, Tsuge
Kazumasa, Yamamoto
Takanobu, Nishiura
Masato, Nakayama
Yuki, Denda
Masakiyo, Fujimoto
Shigeki, Matsuda
Tetsuji, Ogawa
Shingo, Kuroiwa
Satoshi, Nakamura
× Satoshi, Tamura Chiyomi, Miyajima Norihide, Kitaoka Kazuya, Takeda Takeshi, Yamada Tetsuya, Takiguchi Satoru, Tsuge Kazumasa, Yamamoto Takanobu, Nishiura Masato, Nakayama Yuki, Denda Masakiyo, Fujimoto Shigeki, Matsuda Tetsuji, Ogawa Shingo, Kuroiwa Satoshi, Nakamura
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,音声と画像を用いたマルチモーダル音声認識の共通評価基盤 CENSREC-1-AV について紹介する.CENSREC-1-AV では,音声・画像データベースおよびベースラインシステムを提供する.音声は学習用クリーンデータのほか,乗用車走行雑音を付与したものを収録した.画像はカラー映像と近赤外線映像を収録し,ガンマ補正を用いて乗用車走行シミュレーション画像をテストデータとした.ベースラインシステムでは,MFCC と,固有顔ないしはオプティカルフローを特徴量として,マルチストリーム HMM により認識を行った. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper introduces an evaluation framework for multimodal speech recognition: CENSREC-1-AV. The corpus CENSREC-1-AV provides an audiovisual speech database and a baseline system of multimodal speech recognition. Speech signals were recorded in clean condition for training and in-car noises were overlapped for testing. Color and infrared pictures were captured as training data, and image corruption was conducted for testing using the gamma correction technique. In the baseline system, acoustic MFCC as well as eigenface or optical-flow information are adopted as audio and visual features respectively, then multi-stream HMMs are used as a recognition model. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2010-SLP-82, 号 7, p. 1-6, 発行日 2010-07-15 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |