Item type |
SIG Technical Reports(1) |
公開日 |
2024-12-05 |
タイトル |
|
|
タイトル |
大規模言語モデルの数値時系列解釈能力の検証 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
LLM評価 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
お茶の水女子大学/産業技術総合研究所 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属 |
|
|
|
東京大学/産業技術総合研究所 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属 |
|
|
|
お茶の水女子大学/産業技術総合研究所 |
著者名 |
新井, 深月
石垣, 達也
宮尾, 祐介
高村, 大也
小林, 一郎
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では大規模言語モデルの数値時系列の解釈能力を測る評価タスクを提案する.マルチモーダル言語生成や時系列予測といった様々な問題において,数値時系列は入力として扱われている.従来,大規模言語モデルの数値理解能力を評価する研究は,非系列データに対する算術演算や数値を含む表に対する論理推論タスクなど,いくつかの評価タスクが提案されている.一方,本研究で着目する数値時系列データについてはその重要性にも関わらず評価タスクが存在せず,大規模言語モデルがどの程度数値時系列を解釈可能であるか明らかでない.そこで本研究では,大規模言語モデルの数値時系列解釈能力を測る評価タスクとして,1) 最大値や最小値など特定の数値を算出する「イベント検出」,2) 平均値や累積値などの計算能力を測る「計算」,3) 時間軸上でのデータ間の数値的な比較をする「比較」の 3 つのカテゴリから 16 の評価タスクを提案する.実験より,GPT4 などのパラメータサイズが大きなモデルあっても,最大値や最小値を検出するタスク以外では十分な性能が得られず,LLM の数値時系列の解釈能力には向上の余地があることがわかった.また,「指定した範囲の最大値」といった範囲指定を伴う評価タスクでは範囲指定しない評価タスクよりも大きく性能劣化することが確認された.これは LLM を用いる下流タスクにおいて,指定した範囲のデータの切り出しをあらかじめ行うなどの,前処理の重要性を示唆する汎用的な知見である. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-154,
号 41,
p. 1-9,
発行日 2024-12-05
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |