Item type |
SIG Technical Reports(1) |
公開日 |
2021-02-25 |
タイトル |
|
|
タイトル |
マルチモーダル行動認識システム-映像,骨格情報,音響,テキストを用いた行動認識システム- |
タイトル |
|
|
言語 |
en |
|
タイトル |
Multi-modal action recognition system- Recognizing actions based on RGB video, skeleton, audio and text data - |
言語 |
|
|
言語 |
eng |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
セッション2-2 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
株式会社 NTT データ 技術開発部 |
著者所属 |
|
|
|
株式会社 NTT データ 技術開発部 |
著者所属 |
|
|
|
株式会社 NTT データ 技術開発部 |
著者所属 |
|
|
|
株式会社 NTT データ 技術開発部 |
著者所属 |
|
|
|
株式会社 NTT データ 技術開発部 |
著者所属 |
|
|
|
株式会社 NTT データ 技術開発部 |
著者所属(英) |
|
|
|
en |
|
|
Research and Development Headquarters, NTT DATA Corporation |
著者所属(英) |
|
|
|
en |
|
|
Research and Development Headquarters, NTT DATA Corporation |
著者所属(英) |
|
|
|
en |
|
|
Research and Development Headquarters, NTT DATA Corporation |
著者所属(英) |
|
|
|
en |
|
|
Research and Development Headquarters, NTT DATA Corporation |
著者所属(英) |
|
|
|
en |
|
|
Research and Development Headquarters, NTT DATA Corporation |
著者所属(英) |
|
|
|
en |
|
|
Research and Development Headquarters, NTT DATA Corporation |
著者名 |
袁, 航
井村, 太一
藤城, 真祥
牧野, 賢吾
山野上, 勇人
末永, 高志
|
著者名(英) |
Hang, Yuan
Taichi, Imura
Misaki, Fujishiro
Kengo, Makino
Yuto, Yamanoue
Takashi, Suenaga
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
人の行動を認識する技術においては,RGB 画像もしくは時系列の骨格情報といった画像情報が多く利用される.一方で,人間が行う場合は,画像情報だけでなく,周囲の音や発話の内容といった情報も活用して総 合的な判断を下している.行動認識技術においても,画像情報に加えて音声による言語情報や,音響情報といった複数の情報を加味することで,認識精度の向上が期待できる.本報告では,RGB 映像,骨格座標時系列データ,音響データ,テキストの 4 つの情報を入力とした,マルチモーダル行動認識技術を提案し,実データを用いてその効果を示す. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Action recognition algorithms are usually performed on single input modality of either RGB video, or skeleton time series data. However, human perception of action is always based on several different input modalities such as audio, visual and maybe textual modals in some cases. In this work, we present action recognition network which recognize actions based on the following four input modalities: RGB video, skeleton time series data, audio data and textual data. We show that the action recognition accuracy could be improved by a large margin, by testing our model over the IPS cell experiment dataset. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2021-CVIM-225,
号 15,
p. 1-6,
発行日 2021-02-25
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |