ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 会誌「情報処理」
  2. Vol.66(2025)
  3. No.12

5分で分かる!? 有名論文ナナメ読み:Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models

https://doi.org/10.20729/0002005559
https://doi.org/10.20729/0002005559
06b78193-6b49-482c-913b-e0e607e88196
名前 / ファイル ライセンス アクション
IPSJ-MGN661208.pdf IPSJ-MGN661208.pdf (456.0 KB)
 2027年11月15日からダウンロード可能です。
Copyright (c) 2025 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥0, DLIB:会員:¥0
Item type Magazine_02(1)
公開日 2025-11-15
タイトル
言語 ja
タイトル 5分で分かる!? 有名論文ナナメ読み:Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models
言語
言語 jpn
キーワード
主題Scheme Other
主題 連載
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ article
ID登録
ID登録 10.20729/0002005559
ID登録タイプ JaLC
著者所属
サイバーエージェント
著者名 大谷,まゆ

× 大谷,まゆ

大谷,まゆ

Search repository
論文抄録
内容記述タイプ Other
内容記述 近年,画像と言語を統合的に取り扱うマルチモーダルAIの性能が飛躍的に向上している一方で,その多くは非公開モデルであり,学習データやモデル構造が不明であることが研究の進展を妨げている.本記事では,こうした状況に対して透明性を重視し,モデル構造・学習データ・重みをすべて公開した視覚言語モデル「Molmo」と,その学習を支えるデータセット「PixMo」を解説する.まず,視覚言語モデルMolmoで採用された工夫を紹介し,次にPixMoの音声入力や大規模言語モデルを活用したデータ収集手法を概説する.最後に,これらの取り組みがもたらすAI研究への意義と今後の展望について考察する.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00116625
書誌情報 情報処理

巻 66, 号 12, p. 562-563, 発行日 2025-11-15
公開者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-11-07 02:45:11.117618
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3