大規模言語モデルの数値時系列解釈能力の検証

新井, 深月; 石垣, 達也; 宮尾, 祐介; 高村, 大也; 小林, 一郎

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

大規模言語モデルの数値時系列解釈能力の検証

https://ipsj.ixsq.nii.ac.jp/records/241661

名前 / ファイル	ライセンス	アクション
IPSJ-SLP24154041.pdf (1.8 MB) 2026年12月5日からダウンロード可能です。	Copyright (c) 2024 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, SLP:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2024-12-05

タイトル

大規模言語モデルの数値時系列解釈能力の検証

言語

jpn

キーワード

主題Scheme

Other

主題

LLM評価

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

お茶の水女子大学／産業技術総合研究所

著者所属

産業技術総合研究所

著者所属

東京大学／産業技術総合研究所

著者所属

産業技術総合研究所

著者所属

お茶の水女子大学／産業技術総合研究所

著者名

新井, 深月
石垣, 達也
宮尾, 祐介
高村, 大也
小林, 一郎

論文抄録

内容記述タイプ

Other

内容記述

本研究では大規模言語モデルの数値時系列の解釈能力を測る評価タスクを提案する．マルチモーダル言語生成や時系列予測といった様々な問題において，数値時系列は入力として扱われている．従来，大規模言語モデルの数値理解能力を評価する研究は，非系列データに対する算術演算や数値を含む表に対する論理推論タスクなど，いくつかの評価タスクが提案されている．一方，本研究で着目する数値時系列データについてはその重要性にも関わらず評価タスクが存在せず，大規模言語モデルがどの程度数値時系列を解釈可能であるか明らかでない．そこで本研究では，大規模言語モデルの数値時系列解釈能力を測る評価タスクとして，1) 最大値や最小値など特定の数値を算出する「イベント検出」，2) 平均値や累積値などの計算能力を測る「計算」，3) 時間軸上でのデータ間の数値的な比較をする「比較」の 3 つのカテゴリから 16 の評価タスクを提案する．実験より，GPT4 などのパラメータサイズが大きなモデルあっても，最大値や最小値を検出するタスク以外では十分な性能が得られず，LLM の数値時系列の解釈能力には向上の余地があることがわかった．また，「指定した範囲の最大値」といった範囲指定を伴う評価タスクでは範囲指定しない評価タスクよりも大きく性能劣化することが確認された．これは LLM を用いる下流タスクにおいて，指定した範囲のデータの切り出しをあらかじめ行うなどの，前処理の重要性を示唆する汎用的な知見である．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2024-SLP-154, 号 41, p. 1-9, 発行日 2024-12-05

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 07:35:16.511491

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

大規模言語モデルの数値時系列解釈能力の検証

× 新井, 深月

× 石垣, 達也

× 宮尾, 祐介

× 高村, 大也

× 小林, 一郎

Versions

Share

Cite as

エクスポート