WEKO3
アイテム
良性サンプル数は二値分類の精度にどう影響するのか?
https://ipsj.ixsq.nii.ac.jp/records/214555
https://ipsj.ixsq.nii.ac.jp/records/214555b7dd01f7-2838-4887-b734-be68a9583a85
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2021 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2021-10-19 | |||||||
タイトル | ||||||||
タイトル | 良性サンプル数は二値分類の精度にどう影響するのか? | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | How Does a Benign Sample Size Affect Accuracy in Binary Classification? | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | マルウェア,機械学習,二値分類,良性サンプル | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
資源タイプ | conference paper | |||||||
著者所属 | ||||||||
防衛大学校情報工学科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Dept. of Computer Science, National Defense Academy | ||||||||
著者名 |
三村, 守
× 三村, 守
|
|||||||
著者名(英) |
Mamoru, Mimura
× Mamoru, Mimura
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 機械学習を用い,未知のマルウェアや悪性通信を検知する多くのモデルが提案されており,その公平な比較は重要な研究課題である.これまでの研究では,良性サンプル数やその精度への影響はほとんど注目されてこなかった.しかしながら機械学習の二値分類では,良性サンプル数は悪性サンプルの分類精度にも大きく影響する.そこで本研究では,良性サンプル数の増加に伴う精度の低下を評価する独自の指標を定義し,FFRI dataset に含まれる 11,243 のマルウェアサンプルと 250,000 の良性サンプルを,Strings で分類する簡易な実験でその影響を評価した.まず,悪性サンプル数および訓練データの良性サンプル数を固定し,テストデータの良性サンプル数を 10 倍まで増やすことで,F 値が 0.293 低下することを確認した.さらに,訓練データの良性サンプル数を一定数以上とすれば,テストデータの良性サンプル数を増やしても精度は低下しないことを確認した.本研究で定義した指標は,二値分類で良性サンプル数が妥当であるかを評価するために有用であり,既存の研究の精度を評価する指標となり得る. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | There has been many models about detecting unknown malware or malicious traffic with machine learning techniques. A fair comparison of these models is one of the most important problems. However, little study has focused on benign samples and its affect to the accuracy. In binary classification, benign samples size affects the classification accuracy of malicious samples. In this study, we define a new metric for evaluating the accuracy degradation by increasing benign samples. We used the FFRI dataset which contains 11,243 malware samples and 250,000 benign samples, and evaluated the classification accuracy with extracting strings in malware, We increased test benign samples to 10 times leaving malicious samples and benign training samples, and the F1 score was decreased by 0.293. Furthermore, we confirmed that using enough benign training samples mitigates the accuracy degradation. Our metric could be beneficial for evaluating a benign sample size in binary classification and comparing the accuracy. | |||||||
書誌情報 |
コンピュータセキュリティシンポジウム2021論文集 p. 1159-1166, 発行日 2021-10-19 |
|||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |