WEKO3
アイテム
実世界,3D,ロボティクスと言語理解~画像と言語の理解を超えて~
https://ipsj.ixsq.nii.ac.jp/records/241111
https://ipsj.ixsq.nii.ac.jp/records/241111f7bd7a20-d2f9-489b-b763-c008fc03725b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
|
|
DCC:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2024-11-22 | |||||||
タイトル | ||||||||
タイトル | 実世界,3D,ロボティクスと言語理解~画像と言語の理解を超えて~ | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Real-world, 3D, Robotics and Language Understanding-Beyond vision and language understanding- | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | チュートリアル講演 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
国立情報学研究所コンテンツ科学研究系 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Digital Content and Media Sciences Research Division | ||||||||
著者名 |
栗田, 修平
× 栗田, 修平
|
|||||||
著者名(英) |
Shuhei, Kurita
× Shuhei, Kurita
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本講演では,これまでの画像とテキストの理解を超えて,実世界,3D そしてロボティクスを言語モダリティと結合する研究について紹介する. LLaVA や PaLI,GPT-4o のような視覚言語モデルの出現により画像と言語の理解手法は大きな飛躍を遂げた.これらのモデルは既存の画像質問応答タスクなどで高い性能を達成しただけでなく,1枚の画像からの非常に詳細なキャプション生成や,画像中の物体の属性・関係抽出のように,従来では非常に困難であった視覚言語タスクを1つのモデルで解決することができる.しかし,これらのモデルが1枚の画像の理解を超えて,実世界の情報をまだ正しく理解できているわけではないことに注意が必要である.講演では,視覚言語モデルの成功に触れつつ,3D 理解や実世界理解のようにさらに複雑なモダリティの理解タスクに対して言語側からどのようなアプローチが可能か議論する.また,最近のロボット基盤モデルについても紹介し,言語が将来的にこれらのモダリティのなかでどのような役割を占めるか議論する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this lecture, I will introduce recent studies that go beyond traditional image and text understanding to explore the integration of real-world, 3D, and robotics with the language modality. The advancement of the recent visual language models, such as LlaVA, PaLI and GPT-4o, has marked a significant leap in image and language comprehension methodology. These models have not only achieved high performance in existing vision and language tasks, such as visual question answering, but are also capable of handling challenging visual language tasks, such as generating highly detailed captions from a single image and extracting object attributes and relationships within images. However, it is important to note that these models cannot yet fully integrate real-world information beyond the understanding of a single image. While touching on the success of these visual language models, I will discuss potential language-based approaches for understanding more complex modalities, such as 3D and real-world understanding. Additionally, I will introduce recent robotic foundational models and explore the potential future role of language among these modalities. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA12628338 | |||||||
書誌情報 |
研究報告デジタルコンテンツクリエーション(DCC) 巻 2024-DCC-38, 号 9, p. 1-1, 発行日 2024-11-22 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 2188-8868 | |||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |