@techreport{oai:ipsj.ixsq.nii.ac.jp:00227799, author = {増田, 琉斗 and 宮森, 恒 and Ryuto, Masuda and Hisashi, Miyamori}, issue = {27}, month = {Sep}, note = {本稿では,視覚言語モデルが,順序数の概念を的確に把握し活用する能力をどの程度有するのかについて調査する.Transformer ベースの大規模事前学習モデルは,四則演算といった単純な算術問題等のタスクにおいて高い正答率を示しているが,モデルが数の概念をどのように捉え,活用しているのかについては不明な点も多い.本研究では,数の概念の一つとして,順序数に焦点をあて,Transformer ベースの視覚言語モデルが,順序数の概念をどの程度把握し活用する能力をもつのかについて調査する.具体的には,順序数の数え上げに焦点を当てた参照表現理解タスクのためのデータセットを新たに構築する.画像中に複数物体を配置した CG 画像を生成し,物体間関係や数え上げが必須となるような参照表現を付与する.実験では,構築したデータセットを用いて,代表的な視覚言語モデルに対する参照表現理解タスクの性能評価を実施し,順序数に対する的確な把握と活用能力について分析する.}, title = {視覚言語モデルに関する順序数の的確な把握と活用能力の調査}, year = {2023} }