@techreport{oai:ipsj.ixsq.nii.ac.jp:02006897, author = {隅谷,孝洋 and 天野,由貴 and Takahiro Sumiya and Yuki Amano}, issue = {9}, month = {Jan}, note = {生成AIを用いた自由記述文のラベル付けは有用である一方,大規模言語モデル(LLM)の非決定性により,temperatureを0に設定した場合であっても結果が揺らぐことがある.本研究ではこの非決定性を前提とし,生成時のトークン生成確率(LogProbs)を用いて,ラベル付け結果に対する確信度を推定する手法を整理する.さらに,LogProbsが利用できない場合には,多数回生成による出力分布を用いたモンテカルロ的アプローチにより,確信度を近似的に評価する方法を検討する.これにより,生成AIによるラベル付けの揺らぎを,自由記述文や評価方法に内在する曖昧さを示す指標として捉え直し,教育データ分析の信頼性向上に資する視点を提示する., While labeling free-form text with generative AI is useful, the inherent non-determinism of large language models (LLMs) can cause outputs to vary even when the temperature is set to 0. In this study, taking this non-determinism as a given, we organize methods for estimating confidence in labeling results using token-level generation probabilities (log probabilities; LogProbs). In addition, when LogProbs are unavailable, we examine an approximate way to assess confidence via a Monte Carlo-style approach that uses the output distribution obtained from repeated generations. This reframes labeling variability under generative AI as an indicator of ambiguity inherent in free-form responses and in evaluation procedures, and offers a perspective that can improve the reliability of educational data analysis.}, title = {生成AIによる自由記述ラベル付けの安定性再検討}, year = {2026} }