| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-02-26 |
| タイトル |
|
|
タイトル |
ソースコードの生成を目的とした大規模言語モデルに対する学習データセット |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
愛知県立大学情報科学部 |
| 著者所属 |
|
|
|
愛知県立大学情報科学部 |
| 著者所属 |
|
|
|
愛知県立大学情報科学部 |
| 著者所属 |
|
|
|
愛知県立大学情報科学部 |
| 著者所属(英) |
|
|
|
en |
|
|
School of Information Science and Technology, Aichi Prefectural University |
| 著者所属(英) |
|
|
|
en |
|
|
School of Information Science and Technology, Aichi Prefectural University |
| 著者所属(英) |
|
|
|
en |
|
|
School of Information Science and Technology, Aichi Prefectural University |
| 著者所属(英) |
|
|
|
en |
|
|
School of Information Science and Technology, Aichi Prefectural University |
| 著者名 |
池田, 竜之介
大久保, 弘崇
粕谷, 英人
山本, 晋一郎
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
今日,オープンソースな大規模言語モデル(LLM)の公開を皮切りに,LLM 技術の一般化が進んでいる.しかし,現状実用に足る LLM を作成するためには,高い学習コストが要求されるという課題がある.本研究ではこの課題に対し,低い学習コストで高い学習精度を得ることができる学習データセットの構成を提案する.具体的には,ソースコードの生成に特化した LLM の再学習を想定し,Java コードによる,一部内容が異なるいくつかのデータセットでファインチューニングされたモデルの学習精度を比較した.これにより,データセットを構成するソースコードにおいて,メソッド名を匿名化することと,コメントを含めることが,モデルの学習精度を向上させる要素として有効であることが結論として導かれた. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10112981 |
| 書誌情報 |
研究報告ソフトウェア工学(SE)
巻 2024-SE-216,
号 6,
p. 1-8,
発行日 2024-02-26
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8825 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |