@article{oai:ipsj.ixsq.nii.ac.jp:00231988,
 author = {佐藤, 美唯 and 相馬, 菜生 and 伊東, 和香 and 小原, 有以 and 東出, 紗也夏 and 高野, 志歩 and 倉光, 君郎 and Miyu, Sato and Nao, Souma and Waka, Ito and Yui, Obara and Sayaka, Higashide and Shiho, Takano and Kimio, Kuramitsu},
 issue = {1},
 journal = {情報処理学会論文誌プログラミング(PRO)},
 month = {Jan},
 note = {近年,大規模言語モデルの発展は目覚ましく,プログラミングを含むソフトウェア開発への応用の期待が高まっている.しかし,大規模言語モデルの原理とコード生成能力の関係には未知な部分も多い.本研究では,大規模言語モデルがプログラミングをどのくらい理解しているかを定量化するベンチマークの開発を提案する.ベンチマークの開発により,コード生成,コード移植,リファクタリング,コード修正など様々なコードタスクの得意・不得意の把握が可能になり,さらなる大規模言語モデルの開発や微調整に役立つことが期待される.本発表では,ベンチマークのタスクセットの設計,データセットの整備手順やZero-shotプロンプトの開発進捗を報告し,ChatGPTを用いたベースライン評価を報告する., In recent years, large-scale language models have made remarkable progress, and there are growing expectations for their application to software development, including programming. However, there are many unknowns in the relationship between the principles of large-scale language models and their ability to generate code. In this study, we propose the development of a benchmark to quantify how well large-scale language models understand programming. The development of benchmarks will enable us to understand the strengths and weaknesses of various code tasks, such as code generation, code porting, refactoring, and code modification, and will be useful for further developing and fine-tuning large-scale language models. In this presentation, we will report on the design of the benchmark task set, the procedure for maintaining the dataset and the progress in developing the Zero-shot prompts, and report on the baseline evaluation using ChatGPT.},
 pages = {13--13},
 title = {ChatGPTはどのくらいプログラミングを理解しているか?},
 volume = {17},
 year = {2024}
}