| Item type |
Symposium(1) |
| 公開日 |
2023-06-28 |
| タイトル |
|
|
タイトル |
大規模画像認識モデルのFew-shot学習による三次元点群からのシーン理解 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
DPS:AIと行動認識,行動認識 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
| 著者所属 |
|
|
|
大阪大学大学院情報科学研究科 |
| 著者所属 |
|
|
|
大阪大学大学院情報科学研究科 |
| 著者所属 |
|
|
|
大阪大学大学院情報科学研究科 |
| 著者所属 |
|
|
|
大阪大学大学院情報科学研究科 |
| 著者名 |
松浦, 雅人
天野, 辰哉
Hamada, Rizk
山口, 弘純
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
人間中心のサイバーフィジカルシステムやデジタルツインでは,人々の存在や活動を理解し,おかれたシーンを認識することで,現実空間を仮想空間に正しく投影し,様々なアプローチで課題解決することが可能となる.しかし,画像ベースのアプローチは被写体のプライバシに関する課題が知られている.我々の研究グループでは,LiDAR による三次元点群を用いた人流把握および人物行動認識に関する研究に取り組んでおり,歩行者の正確な軌跡推定や行動認識を実現しているが,人々が何をしているかのシーン理解を三次元点群から行うことは物体や人物・行動の認識精度を考慮すると未だ挑戦的な課題である.本研究では,大規模画像認識モデルの Few-shot 学習により,与えられた三次元点群が示すシーンを推定する手法を提案する.提案手法では,三次元点群をある方向からの深度画像に変換し,OpenAI 社の大規模画像認識モデルである CLIP による特徴量を得るとともに,点群分布やその時間変化の特徴量を Fisher Vector で表現する.これらを Linear Probe とよばれるロジスティック回帰アダプタに与えて Few-shot 学習を行うことで,シーン理解を行う.三次元点群の時間的変化を軽量の Fisher Vector で表現し,それを混合した特徴量を CLIP のアダプタに組み込むことで,動的な三次元点群に対しても CLIP を活用した動的シーンの推論を実現している.会議と卓球といった 2 シーンを想定した,混同しやすいシナリオを含む簡易な実証実験を行い,最も学習データが少ない 2 shots の Few-shot 学習において,91.25% の精度を達成した. |
| 書誌情報 |
マルチメディア,分散,協調とモバイルシンポジウム2023論文集
巻 2023,
p. 16-24,
発行日 2023-06-28
|
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |