| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-11-25 |
| タイトル |
|
|
タイトル |
大規模言語モデルの統一評価に向けた指示テンプレートの提案及びその評価結果の考察 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
プロンプト |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
| 著者名 |
坂井, 優介
ノヘイル, アダム
上垣外, 英剛
渡辺, 太郎
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
生成型大規模言語モデル(LLM)の自然言語理解(NLU)性能は,様々なタスクやデータセットによって評価されている一方で,既存の評価手法ではプロンプトの種類による LLM の性能差について考慮されていないため,モデルの NLU 性能を測定する目的の観点から公平な比較・評価がされていない.さらに,LLM の汎化性能に着目すると,特定のプロンプトのみによる LLM の性能評価は Instruction-tuning の目的であるプロンプト非依存の汎化能力を測ることにも適していない.よって,既存の LLM の NLU 性能の評価手法では評価の公平性と LLM の汎化性についての議論が十分ではない.本研究ではこの問題を解決するためにタスクごとに複数の評価用指示テンプレートと出力に対する制約を付与した NLU 性能評価用言語横断データセットを提供する.本稿では提案するデータセットを用いて,様々な LLM による評価と分析を行い,出力の制約の有無による評価の変化,学習時と評価時の指示テンプレートの差による性能の変化,NLU 性能を評価するのに必要な学習データ量,NLU 性能に着目した際の言語特有モデルの必要性などについて考察を行った.また指示テンプレートの種類による NLU 性能の分散を考慮した評価指標としてシャープスコアを提案し,性能評価において指示テンプレートごとの分散を考慮する必要性を示した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-149,
号 28,
p. 1-14,
発行日 2023-11-25
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |