@techreport{oai:ipsj.ixsq.nii.ac.jp:00057023,
 author = {根木, 大輔 and 前野, 俊希 and 北坂, 孝幸 and 森, 健策 and 末永, 康仁 and 宮島, 千代美 and 伊藤, 克亘 and 武田, 一哉 and 板倉, 文忠 and 佐野, 昌己 and 二宮, 芳樹 and Daisuke, NEGI and Toshiki, MAENO and Takayuki, KITASAKA and Kensaku, MORI and Yasuhito, SUENAGA and Chiyomi, MIYAJIMA and Katsunobu, ITOU and Kazuya, TAKEDA and Fumitada, ITAKURA and Masami, SANO and Yoshiki, NINOMIYA},
 issue = {12(2004-SLP-055)},
 month = {Feb},
 note = {近年,現実の雑音環境下の様々なシーンにおいて音声認識率を向上させるために,音声情報と映像情報を統合したバイモーダル音声認識への関心が高まっている.映像情報は音響雑音の影響を受けない情報源として,音声認識において重要な役割を果たすものと考えられる.しかし,大規模バイモーダルデータベースが少ないことなどから,映像情報は実際の音声認識システムにおいて十分に利用されるには至っていない.そこで我々は,これまでに構築されている雑音環境下音声認識評価用共通データベースAURORA-2J/AURORA-3Jの仕様に則り,高品質カラー映像と近赤外映像を付加して収録を行い,新しいデータベースAURORA-2J-AV(室内),AURORA-3J-AV(自動車内)を構築している.本稿ではこれらのデータベースの詳細について述べる., There are remarkable interests on bimodal speech recognition, which integrate audio and visual information, to improve speech recognition rates. Visual information plays a very important role in speech recognition since it is not affected by acoustic noises. However, such kind of information has not been fully used in existing actual speech recognition systems because  of the lack of large-scale bimodal databases. Therefore we are building new databases called AURORA-2J-AV(indoor) and AURORA-3J-AV(in-vehicle) that contain aural signals and high quality facial images taken by color and near-infrared cameras. The utterance tasks of these databases are the same as those of our AURORA-2J/AURORA-3J database for evaluating speech recognition method under noisy environments. This paper describes the detailed specification of the databases.},
 title = {バイモーダル車内音声認識評価用データベースの構築},
 year = {2005}
}