@article{oai:ipsj.ixsq.nii.ac.jp:02005559,
 author = {大谷,まゆ},
 issue = {12},
 journal = {情報処理},
 month = {Nov},
 note = {近年，画像と言語を統合的に取り扱うマルチモーダルAIの性能が飛躍的に向上している一方で，その多くは非公開モデルであり，学習データやモデル構造が不明であることが研究の進展を妨げている．本記事では，こうした状況に対して透明性を重視し，モデル構造・学習データ・重みをすべて公開した視覚言語モデル「Molmo」と，その学習を支えるデータセット「PixMo」を解説する．まず，視覚言語モデルMolmoで採用された工夫を紹介し，次にPixMoの音声入力や大規模言語モデルを活用したデータ収集手法を概説する．最後に，これらの取り組みがもたらすAI研究への意義と今後の展望について考察する．},
 pages = {562--563},
 title = {5分で分かる!? 有名論文ナナメ読み：Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models},
 volume = {66},
 year = {2025}
}