| Item type |
Symposium(1) |
| 公開日 |
2024-10-15 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
GPT-4o-miniのファインチューニングを用いたエクスプロイト判定 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
How to Detect Exploit Code using Fine-tuned GPT-4o-mini |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
エクスプロイトコード, 公開リポジトリ,GPT-4o-mini, ファインチューニング, AI 判定 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
| 著者所属 |
|
|
|
株式会社ラック サイバー・グリッド・ジャパン |
| 著者所属 |
|
|
|
筑波技術大学 保健科学部 情報システム学科 |
| 著者所属 |
|
|
|
筑波技術大学 保健科学部 情報システム学科 |
| 著者所属 |
|
|
|
株式会社ラック サイバー・グリッド・ジャパン |
| 著者所属(英) |
|
|
|
en |
|
|
LAC Co., Ltd.CYBER GRID JAPAN. |
| 著者所属(英) |
|
|
|
en |
|
|
Tsukuba University of Technology, Faculty of Health Sciences, Department of Computer Science. |
| 著者所属(英) |
|
|
|
en |
|
|
Tsukuba University of Technology, Faculty of Health Sciences, Department of Computer Science. |
| 著者所属(英) |
|
|
|
en |
|
|
LAC Co., Ltd.CYBER GRID JAPAN. |
| 著者名 |
芳村, 涼介
岡本, 健
堀江, 則之
小笠原, 恒雄
|
| 著者名(英) |
Ryosuke, Yoshimura
Takeshi, Okamoto
Noriyuki, Horie
Tsuneo, Ogasawara
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
GitHubなどの公開リポジトリには,エクスプロイトコードが数多く存在している.攻撃者がエクスプロイトコードを悪用した場合,情報流出やサービス停止など,重大なセキュリティインシデントに繋がる.我々は,過去3年間,GitHubやExploit-DBなどを対象とすることにより,公開リポジトリ内でエクスプロイトコードがどのように分布しているか,その傾向や特徴を調査してきた.これにより,セキュリティパッチや偽のエクスプロイトコードといった,エクスプロイトコードと誤検知してしまうファイルが多く存在することがわかった.そこで本研究では,機械学習を用いて公開リポジトリからエクスプロイトコードのみを正しく検出する手法を提案し,GitHubなどのリポジトリを用いて検知の有効性を評価した.当初,概要文が多言語化されている事などが原因で,エクスプロイト判定の精度は0.83しか得られなかった.対策として我々は,gpt-3.5-turboやgpt-4-miniのファインチューニングを用いて,システムの精度向上を試みた.この結果,概要文判定において,gpt-4o-miniは,精度が0.82,F値が0.88となった.エクスプロイト判定では,概要文判定の結果やその他解析結果を統合したことにより,gpt-4o-miniの精度は0.82,LightGBMの精度は0.89となった.これにより,エクスプロイト判定においては,gpt-4o-miniよりLightGBMの方が高い有効性をもつことが示された. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
There is a significant amount of exploit code in public repositories like GitHub. If attackers use exploit code in an attack, it can lead to serious security incidents such as data breaches or service disruptions. In the past three years, we have worked on the development of automation to detect exploit code. This revealed that many pieces of code are mistakenly identified as exploit code. The examples include security patches and fake code. In this paper, we proposed a method to accurately detect only exploit code from public repositories. Machine learning is used to detect code. We then evaluated the effectiveness of the detection using repositories, such as GitHub. Initially, we achieved only 0.83 accuracy in exploit detection. The low evaluation was due to the description being written in multiple languages. We performed fine-tuning on GPT-3.5-turbo and GPT-4-mini to improve the system's accuracy. As a result, in the evaluation of the description detection, GPT-4o-mini achieved an accuracy of 0.82 and an F-score of 0.88. In exploit detection, GPT-4o-mini achieved an accuracy of 0.82, while LightGBM achieved an accuracy of 0.89. This was achieved by integrating the results of the description evaluation and other analyses. This means that in exploit detection, LightGBM is more effective than GPT-4o-mini. As a result, it was indicated that LightGBM is more effective than GPT-4o-mini in exploit detection. |
| 書誌情報 |
コンピュータセキュリティシンポジウム2024論文集
p. 449-456,
発行日 2024-10-15
|
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |