WEKO3
アイテム
5分で分かる!? 有名論文ナナメ読み:Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models
https://doi.org/10.20729/0002005559
https://doi.org/10.20729/000200555906b78193-6b49-482c-913b-e0e607e88196
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2027年11月15日からダウンロード可能です。
|
Copyright (c) 2025 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥0, DLIB:会員:¥0 | ||
| Item type | Magazine_02(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2025-11-15 | |||||||
| タイトル | ||||||||
| 言語 | ja | |||||||
| タイトル | 5分で分かる!? 有名論文ナナメ読み:Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | 連載 | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
| 資源タイプ | article | |||||||
| ID登録 | ||||||||
| ID登録 | 10.20729/0002005559 | |||||||
| ID登録タイプ | JaLC | |||||||
| 著者所属 | ||||||||
| サイバーエージェント | ||||||||
| 著者名 |
大谷,まゆ
× 大谷,まゆ
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 近年,画像と言語を統合的に取り扱うマルチモーダルAIの性能が飛躍的に向上している一方で,その多くは非公開モデルであり,学習データやモデル構造が不明であることが研究の進展を妨げている.本記事では,こうした状況に対して透明性を重視し,モデル構造・学習データ・重みをすべて公開した視覚言語モデル「Molmo」と,その学習を支えるデータセット「PixMo」を解説する.まず,視覚言語モデルMolmoで採用された工夫を紹介し,次にPixMoの音声入力や大規模言語モデルを活用したデータ収集手法を概説する.最後に,これらの取り組みがもたらすAI研究への意義と今後の展望について考察する. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN00116625 | |||||||
| 書誌情報 |
情報処理 巻 66, 号 12, p. 562-563, 発行日 2025-11-15 |
|||||||
| 公開者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||