@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00214556, author = {何, 天祥 and 韓, 燦洙 and 高橋, 健志 and 来嶋, 秀治 and 竹内, 純一 and Tianxiang, He and Chansu, Han and Takeshi, Takahashi and Shuji, Kijima and Jun'ichi, Takeuchi}, book = {コンピュータセキュリティシンポジウム2021論文集}, month = {Oct}, note = {IoT マルウェア検体の数は,近年急速に増加し,多様化している.大量なマルウェア検体を効率的に分析するために,我々はスケーラブルなクラスタリング手法を研究している.本研究では平均場アニーリング (MFA) を用いてクラスタリングを行い,能動学習によって距離行列の極一部のみを観察する手法を実験で 3,008 検体の IoT マルウェアを用いてアルゴリズムの評価を行った.また,オンライン処理する手法を提案し,評価した.能動学習クラスタリング (Active Clustering, AC) 手法を適用することにより,距離行列全体の 2.6% のみを計算するだけでクラスタリングを行った.その結果,86.9% のファミリ名正解率と 96.5% アーキテクチャ名正解率を達成した.また,我々の先行研究の手法では距離行列の 7.2% を観測する必要があったが,AC では同程度の精度を保ちながら,観測量を 64% 削減した., In recent years, the number of IoT malware specimens has rapidly increased and diversified. In order to effectively analyze a large number of malware specimens, our goal is to cluster from the incomplete distance matrix of the specimens. To this end, we use Mean Field Annealing (MFA) for clustering and use active data selection to determine which distance to observe actively. We also proposed an online processing method for additional collected malware. We used 3,008 IoT malware specimens for experimental evaluation. By applying the active clustering algorithm, clustering is performed by only calculating 2.6% of the entire distance matrix. The family name accuracy was 86.9%, and the architecture name accuracy was 96.5%. In addition, in our previous research, 7.2% of observations of the distance matrix were required, but the active clustering algorithm reached the same level of accuracy, with much lesser observations. The observation reduction rate was 64%.}, pages = {1167--1174}, publisher = {情報処理学会}, title = {能動学習に基づいたマルウェア階層的クラスタリング}, year = {2021} }