| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-10-28 |
| タイトル |
|
|
タイトル |
プロンプトの自然言語差異がLLMを用いたコード自動生成に及ぼす影響の研究 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
A Study on the Impact of Natural Language Differences in Prompts on Automatic Code Generation Using LLMs |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属 |
|
|
|
天津大学 |
| 著者所属 |
|
|
|
早稲田大学 |
| 著者所属 |
|
|
|
アイントホーフェン工科大学 |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者所属(英) |
|
|
|
en |
|
|
Tianjin University |
| 著者所属(英) |
|
|
|
en |
|
|
Waseda University |
| 著者所属(英) |
|
|
|
en |
|
|
Eindhoven University of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者名 |
徳益, 晴香
近藤, 将成
小柳, 慶
王, 楝
鵜林, 尚靖
Alexander, Serebrenik
亀井, 靖高
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
大規模言語モデル(以下LLM)は,様々なタスクにおいて高い性能を示しており,ソフトウェア開発においてもコード自動生成への応用が期待されている.近年の研究では,高品質なコードを生成するためのプロンプト設計に注目が集まっているが,異なる自然言語がコード生成に与える影響についてはほとんど知られていない.異なる自然言語間で生成されるコードの品質に差がある場合,母国語の違いによる不利益など社会的バイアスの要因になる可能性がある.本研究では,3 つの異なる自然言語(英語,日本語,中国語),それぞれの言語話者がどの LLM を使用することで自動生成するコードの品質を高めることができるかを明らかにし,さらに異なる自然言語間で生成されるコードに差があるかを明らかにするために,LLM によるコード生成に与える影響を実証的研究によって調査した.評価には,プログラミングコンテスト AtCoder の難易度 A,B,C,Dに分類された 756 問,および LeetCode の難易度 easy,medium,hard に分類された 33 問を使用し,生成されたコードが問題に回答できた Accuracy によってコード品質を評価した.その結果,使用する LLM による差異は,データセットの違いに左右されることが示された.また.異なる言語間にもデータセットに依存する差異があることが示された.本研究は,異なる自然言語を使用するプログラミング学習者が,コード生成においてどのような影響を受けるかを明らかにする初期調査であり,さらにプログラミング技術の学習指針を示すものである. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Large-scale language models (LLMs) have demonstrated high performance across various tasks and show promise for automatic code generation in software development. While recent studies have focused on prompt design for high-quality code generation, the impact of different natural languages on code generation remains unexplored. If natural languages lead to variations in generated code quality, it could potentially create social bias, disadvantaging speakers of certain languages. This study empirically investigates the impact of LLMs on code generation in three natural languages: English, Japanese, and Chinese. Our aims were twofold: to determine which LLMs can be effectively used by speakers of each language to improve automatically generated code quality, and to identify any differences in code generated across these languages. For our evaluation, we utilized 756 questions from the AtCoder programming contest, categorized into difficulty levels A, B, C, and D, as well as 33 questions from LeetCode, classified as easy, medium, or hard. We assessed code quality based on the accuracy of the generated code in answering these questions. Our findings revealed that the best-performing LLM varied between AtCoder and LeetCode. Similarly, the most effective language for code generation differed between these platforms. This study serves as an initial investigation into how natural language affects code generation for programming learners and aims to provide guidelines for enhancing programming techniques across language barriers. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10112981 |
| 書誌情報 |
研究報告ソフトウェア工学(SE)
巻 2024-SE-218,
号 6,
p. 1-8,
発行日 2024-10-28
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8825 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |