@techreport{oai:ipsj.ixsq.nii.ac.jp:00232928, author = {池田, 竜之介 and 大久保, 弘崇 and 粕谷, 英人 and 山本, 晋一郎}, issue = {6}, month = {Feb}, note = {今日,オープンソースな大規模言語モデル(LLM)の公開を皮切りに,LLM 技術の一般化が進んでいる.しかし,現状実用に足る LLM を作成するためには,高い学習コストが要求されるという課題がある.本研究ではこの課題に対し,低い学習コストで高い学習精度を得ることができる学習データセットの構成を提案する.具体的には,ソースコードの生成に特化した LLM の再学習を想定し,Java コードによる,一部内容が異なるいくつかのデータセットでファインチューニングされたモデルの学習精度を比較した.これにより,データセットを構成するソースコードにおいて,メソッド名を匿名化することと,コメントを含めることが,モデルの学習精度を向上させる要素として有効であることが結論として導かれた.}, title = {ソースコードの生成を目的とした大規模言語モデルに対する学習データセット}, year = {2024} }