| Item type |
Symposium(1) |
| 公開日 |
2024-10-15 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
ログ収集のための機械学習を用いたJSON形式ログファイル判別の検討 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
A Consideration of JSON format Log File Discrimination using Machine Learning for Automatic Log Collection |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
機械学習,デジタルフォレンジック,ログ解析 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
| 著者所属 |
|
|
|
東京情報大学大学院総合情報学研究科 |
| 著者所属 |
|
|
|
日立システムズサイバーセキュリティリサーチセンタ |
| 著者所属 |
|
|
|
日立システムズサイバーセキュリティリサーチセンタ |
| 著者所属 |
|
|
|
日立システムズ セキュリティ・コアバリュー本部 |
| 著者所属 |
|
|
|
東京情報大学総合情報学部 |
| 著者所属 |
|
|
|
東京情報大学総合情報学部 |
| 著者所属 |
|
|
|
東京情報大学総合情報学部 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Infomatics, Tokyo Universiy of Infomation Sciences |
| 著者所属(英) |
|
|
|
en |
|
|
Hitachi Systems, Ltd. Cyber Security Research Center |
| 著者所属(英) |
|
|
|
en |
|
|
Hitachi Systems, Ltd. Cyber Security Research Center |
| 著者所属(英) |
|
|
|
en |
|
|
Hitachi Systems, Ltd. Security Core Value Office |
| 著者所属(英) |
|
|
|
en |
|
|
Faculty of Informatics, Tokyo University of Information Sciences |
| 著者所属(英) |
|
|
|
en |
|
|
Faculty of Informatics, Tokyo University of Information Sciences |
| 著者所属(英) |
|
|
|
en |
|
|
Faculty of Informatics, Tokyo University of Information Sciences |
| 著者名 |
谷屋, 直樹
中野, 心太
関谷, 信吾
折田, 彰
岸本, 頼紀
早稲田, 篤志
花田, 真樹
|
| 著者名(英) |
Naoki, Taniya
Shinta, Nakano
Shingo, Sekiya
Akira, Orita
Yorinori, Kishimoto
Atsushi, Waseda
Masaki, Hanada
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
デジタルフォレンジックにおいて,ログファイルを収集する作業は煩わしい.これに対してファイルのバイナリデータに対してfasttextを利用した類似度からテキスト形式のログファイルを自動判別,収集する方法が提案されている.しかし,この手法ではnginxやApacheなどのログ出力形式として利用されるJSON形式のログファイルに対応できない.JSON形式ファイルでは,出力するアプリケーション毎にキーが異なるため,tf-idfのような類似度では分類が難しい.そこで,fasttext,ナイーブベイズ,ランダムフォレスト,SVMのそれぞれのアルゴリズムを用いて類似度を計算し,その傾向について分析する.これにより,ログファイルか否かの判別に適したアルゴリズムについて検討・報告する. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In digital forensics, collecting log files is a difficult task. A method has been proposed to automatically identify and collect text-format log files based on similarity using fasttext for the binary data of the files. However, this method does not support JSON log files, which are used as the log output format for nginx, Apache, etc. In JSON files, the keys are different for each output application, making classification difficult using similarity measures such as tf-idf. Therefore, we investigated similarity measures using each of the algorithms, fasttext, naive Bayes, random forest, and SVM, and investigated and reported on algorithms suitable for identifying log files. |
| 書誌情報 |
コンピュータセキュリティシンポジウム2024論文集
p. 1880-1883,
発行日 2024-10-15
|
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |