@article{oai:ipsj.ixsq.nii.ac.jp:02005559, author = {大谷,まゆ}, issue = {12}, journal = {情報処理}, month = {Nov}, note = {近年,画像と言語を統合的に取り扱うマルチモーダルAIの性能が飛躍的に向上している一方で,その多くは非公開モデルであり,学習データやモデル構造が不明であることが研究の進展を妨げている.本記事では,こうした状況に対して透明性を重視し,モデル構造・学習データ・重みをすべて公開した視覚言語モデル「Molmo」と,その学習を支えるデータセット「PixMo」を解説する.まず,視覚言語モデルMolmoで採用された工夫を紹介し,次にPixMoの音声入力や大規模言語モデルを活用したデータ収集手法を概説する.最後に,これらの取り組みがもたらすAI研究への意義と今後の展望について考察する.}, pages = {562--563}, title = {5分で分かる!? 有名論文ナナメ読み:Matt Deitke, Christopher Clark, Sangho Lee, et al. : Molmo and PixMo : Open Weights and Open Data for State-ofthe-Art Vision-Language Models}, volume = {66}, year = {2025} }