@techreport{oai:ipsj.ixsq.nii.ac.jp:00235098, author = {森田, 隼功 and 大林, 弘明 and 田村, 晃裕 and 濱田, 充男}, issue = {7}, month = {Jun}, note = {本論文では,大規模言語モデル(LLM)による LLM の新たな性能評価手法を提案する.LLM による LLM の性能評価には,各 LLM の生成文を独立に採点する絶対評価と,生成文同士を比較して優劣を評価する相対評価とがある.従来の絶対評価では,各 LLM の評価が異なる視点で行われる可能性があり,LLM 間の点数を比較することが不適切な場合がある.また,従来の相対評価では,評価対象の提示順によって優劣結果が入れ替わる場合がある.これらの問題は,評価対象の LLM を採点もしくは比較する際,同じ視点で評価が行われていないことが原因であると考える.そこで本研究では,LLM により,質問と参照回答を基に評価観点を自動で作成し,評価観点を指定して LLM を評価する手法を提案する.そして,本提案手法を文章作成等のビジネスタスクを対象に評価し,有効性を確認した.}, title = {自動作成した評価観点を用いたLLMによるLLMの参照回答ベース評価}, year = {2024} }