@techreport{oai:ipsj.ixsq.nii.ac.jp:00231286, author = {坂井, 優介 and ノヘイル, アダム and 上垣外, 英剛 and 渡辺, 太郎}, issue = {28}, month = {Nov}, note = {生成型大規模言語モデル(LLM)の自然言語理解(NLU)性能は,様々なタスクやデータセットによって評価されている一方で,既存の評価手法ではプロンプトの種類による LLM の性能差について考慮されていないため,モデルの NLU 性能を測定する目的の観点から公平な比較・評価がされていない.さらに,LLM の汎化性能に着目すると,特定のプロンプトのみによる LLM の性能評価は Instruction-tuning の目的であるプロンプト非依存の汎化能力を測ることにも適していない.よって,既存の LLM の NLU 性能の評価手法では評価の公平性と LLM の汎化性についての議論が十分ではない.本研究ではこの問題を解決するためにタスクごとに複数の評価用指示テンプレートと出力に対する制約を付与した NLU 性能評価用言語横断データセットを提供する.本稿では提案するデータセットを用いて,様々な LLM による評価と分析を行い,出力の制約の有無による評価の変化,学習時と評価時の指示テンプレートの差による性能の変化,NLU 性能を評価するのに必要な学習データ量,NLU 性能に着目した際の言語特有モデルの必要性などについて考察を行った.また指示テンプレートの種類による NLU 性能の分散を考慮した評価指標としてシャープスコアを提案し,性能評価において指示テンプレートごとの分散を考慮する必要性を示した.}, title = {大規模言語モデルの統一評価に向けた指示テンプレートの提案及びその評価結果の考察}, year = {2023} }