ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. デジタルコンテンツクリエーション(DCC)
  3. 2024
  4. 2024-DCC-038

実世界,3D,ロボティクスと言語理解~画像と言語の理解を超えて~

https://ipsj.ixsq.nii.ac.jp/records/241111
https://ipsj.ixsq.nii.ac.jp/records/241111
f7bd7a20-d2f9-489b-b763-c008fc03725b
名前 / ファイル ライセンス アクション
IPSJ-DCC24038009.pdf IPSJ-DCC24038009.pdf (968.9 kB)
Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
DCC:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-11-22
タイトル
タイトル 実世界,3D,ロボティクスと言語理解~画像と言語の理解を超えて~
タイトル
言語 en
タイトル Real-world, 3D, Robotics and Language Understanding-Beyond vision and language understanding-
言語
言語 jpn
キーワード
主題Scheme Other
主題 チュートリアル講演
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
国立情報学研究所コンテンツ科学研究系
著者所属(英)
en
Digital Content and Media Sciences Research Division
著者名 栗田, 修平

× 栗田, 修平

栗田, 修平

Search repository
著者名(英) Shuhei, Kurita

× Shuhei, Kurita

en Shuhei, Kurita

Search repository
論文抄録
内容記述タイプ Other
内容記述 本講演では,これまでの画像とテキストの理解を超えて,実世界,3D そしてロボティクスを言語モダリティと結合する研究について紹介する. LLaVA や PaLI,GPT-4o のような視覚言語モデルの出現により画像と言語の理解手法は大きな飛躍を遂げた.これらのモデルは既存の画像質問応答タスクなどで高い性能を達成しただけでなく,1枚の画像からの非常に詳細なキャプション生成や,画像中の物体の属性・関係抽出のように,従来では非常に困難であった視覚言語タスクを1つのモデルで解決することができる.しかし,これらのモデルが1枚の画像の理解を超えて,実世界の情報をまだ正しく理解できているわけではないことに注意が必要である.講演では,視覚言語モデルの成功に触れつつ,3D 理解や実世界理解のようにさらに複雑なモダリティの理解タスクに対して言語側からどのようなアプローチが可能か議論する.また,最近のロボット基盤モデルについても紹介し,言語が将来的にこれらのモダリティのなかでどのような役割を占めるか議論する.
論文抄録(英)
内容記述タイプ Other
内容記述 In this lecture, I will introduce recent studies that go beyond traditional image and text understanding to explore the integration of real-world, 3D, and robotics with the language modality. The advancement of the recent visual language models, such as LlaVA, PaLI and GPT-4o, has marked a significant leap in image and language comprehension methodology. These models have not only achieved high performance in existing vision and language tasks, such as visual question answering, but are also capable of handling challenging visual language tasks, such as generating highly detailed captions from a single image and extracting object attributes and relationships within images. However, it is important to note that these models cannot yet fully integrate real-world information beyond the understanding of a single image. While touching on the success of these visual language models, I will discuss potential language-based approaches for understanding more complex modalities, such as 3D and real-world understanding. Additionally, I will introduce recent robotic foundational models and explore the potential future role of language among these modalities.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA12628338
書誌情報 研究報告デジタルコンテンツクリエーション(DCC)

巻 2024-DCC-38, 号 9, p. 1-1, 発行日 2024-11-22
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8868
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:44:26.600032
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3