@techreport{oai:ipsj.ixsq.nii.ac.jp:00218824, author = {嶋田, 創 and 蘇, 思遠 and 長谷川, 皓一 and 山口, 由紀子}, issue = {19}, month = {Jul}, note = {機械学習技術の発展に伴い,サイバーセキュリティ分野への機械学習の利用も広まっている一方,様々な機械学習システムへの攻撃が存在し,新たな脅威となっている.本研究では,機械学習ベースのマルウェア検知システムに対し,攻撃者が識別器のマルウェア検出精度を下げるように加工した中毒攻撃用マルウェアを事前にばらまき,検知システム運用側が誤って学習データに紛れませてしまう脅威を想定する.本研究では,追加学習前後の SVM ベースのマルウェア識別器の勾配ベクトルの変化量をもとに,追加学習データに中毒攻撃用マルウェア由来のデータが含まれているか判別することを試みる.これは,中毒攻撃用マルウェアは識別器の内部状態である勾配ベクトルを大きく乱すような学習データになると想定し,再学習を行った後の識別器の勾配ベクトルが大きく変化した場合に追加した学習データは中毒攻撃由来であったと判別するものである.この閾値は,識別器生成者側で,既存の学習データから閾値決定用の中毒攻撃用データを生成し,学習した時の勾配ベクトルの変化量から決定する.評価は,新たにクリーンなデータと中毒攻撃用データをそれぞれ 300/150/75 ずつを追加して学習した識別器の勾配ベクトルとのユークリッド距離を変化量で行った.その結果,閾値の設定においてクリーンなデータの追加時の変化量の最大値と中毒攻撃用データの追加時の変化量の最小値を使うことになっても,その中間値を閾値として設定して判別可能なことを確認した., Due to improvement of Machine Learning (ML), there are many use of ML in cyber-security area. However, there are arising many attack methods to ML systems and they become new threats. In this paper, we assume a treat that an attacker distributes manipulated malware samples aiming poisoning attack and a ML system maintainer wrongly includes them in training data. In this paper, we try to identify training data comes from manipulated malware samples aiming poisoning attack based on variation of gradient information of SVM based malware classifier. We assumed that manipulated malware samples aiming poisoning attack generates learning data that largely confuse a gradient vector which is an internal state of SVM classifier. Thus, if gradient vector varies hugely after re-learning with additional data, we estimate that that additional learning data is a data derived from a poisoning attack. A threshold to define the poisoning attack is generated by ML system maintainer. ML system maintainer generates local poisoning attack data from existing learning data and perform re-learning with local poisoning attack data to define threshold. We evaluated Euclidean distance of gradient vectors between re-learning with 300/150/75 of additional clean data or poisoning attack data. We confirmed that we can detect poisoning attack data by defining threshold with intermediate value of maximum variation of additional clean data and minimum variation of additional poisoning attack data.}, title = {勾配情報変化量を利用したSVMベースのマルウェア検知を標的にする中毒攻撃データの検知}, year = {2022} }