5分で分かる!? 有名論文ナナメ読み：Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models

大谷,まゆ

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

5分で分かる!? 有名論文ナナメ読み：Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models

https://doi.org/10.20729/0002005559

名前 / ファイル	ライセンス	アクション
IPSJ-MGN661208.pdf (456.0 KB) 2027年11月15日からダウンロード可能です。	Copyright (c) 2025 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥0, DLIB:会員：¥0

Item type

Magazine_02(1)

公開日

2025-11-15

タイトル

言語

タイトル

5分で分かる!? 有名論文ナナメ読み：Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models

言語

jpn

キーワード

主題Scheme

Other

主題

連載

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_6501

資源タイプ

article

ID登録

10.20729/0002005559

ID登録タイプ

JaLC

著者所属

サイバーエージェント

著者名

大谷,まゆ

論文抄録

内容記述タイプ

Other

内容記述

近年，画像と言語を統合的に取り扱うマルチモーダルAIの性能が飛躍的に向上している一方で，その多くは非公開モデルであり，学習データやモデル構造が不明であることが研究の進展を妨げている．本記事では，こうした状況に対して透明性を重視し，モデル構造・学習データ・重みをすべて公開した視覚言語モデル「Molmo」と，その学習を支えるデータセット「PixMo」を解説する．まず，視覚言語モデルMolmoで採用された工夫を紹介し，次にPixMoの音声入力や大規模言語モデルを活用したデータ収集手法を概説する．最後に，これらの取り組みがもたらすAI研究への意義と今後の展望について考察する．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN00116625

書誌情報

情報処理

巻 66, 号 12, p. 562-563, 発行日 2025-11-15

公開者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-11-07 02:45:11.117618

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

5分で分かる!? 有名論文ナナメ読み：Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models

× 大谷,まゆ

Versions

Share

Cite as

エクスポート