@techreport{oai:ipsj.ixsq.nii.ac.jp:00241616, author = {新井, 深月 and 石垣, 達也 and 宮尾, 祐介 and 高村, 大也 and 小林, 一郎}, issue = {41}, month = {Dec}, note = {本研究では大規模言語モデルの数値時系列の解釈能力を測る評価タスクを提案する.マルチモーダル言語生成や時系列予測といった様々な問題において,数値時系列は入力として扱われている.従来,大規模言語モデルの数値理解能力を評価する研究は,非系列データに対する算術演算や数値を含む表に対する論理推論タスクなど,いくつかの評価タスクが提案されている.一方,本研究で着目する数値時系列データについてはその重要性にも関わらず評価タスクが存在せず,大規模言語モデルがどの程度数値時系列を解釈可能であるか明らかでない.そこで本研究では,大規模言語モデルの数値時系列解釈能力を測る評価タスクとして,1) 最大値や最小値など特定の数値を算出する「イベント検出」,2) 平均値や累積値などの計算能力を測る「計算」,3) 時間軸上でのデータ間の数値的な比較をする「比較」の 3 つのカテゴリから 16 の評価タスクを提案する.実験より,GPT4 などのパラメータサイズが大きなモデルあっても,最大値や最小値を検出するタスク以外では十分な性能が得られず,LLM の数値時系列の解釈能力には向上の余地があることがわかった.また,「指定した範囲の最大値」といった範囲指定を伴う評価タスクでは範囲指定しない評価タスクよりも大きく性能劣化することが確認された.これは LLM を用いる下流タスクにおいて,指定した範囲のデータの切り出しをあらかじめ行うなどの,前処理の重要性を示唆する汎用的な知見である.}, title = {大規模言語モデルの数値時系列解釈能力の検証}, year = {2024} }