@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00228734, author = {山下, 千紘 and 毛利, 公一 and 金城, 聖 and 津田, 侑 and Chihiro, Yamashita and Koichi, Mouri and Akira, Kanashiro and Yu, Tsuda}, book = {コンピュータセキュリティシンポジウム2023論文集}, month = {Oct}, note = {サイバー攻撃の対策を検討するためには,攻撃手口をより早く知ることが必要である.攻撃手口を知るための情報収集の手法として,サイバー脅威情報関係のニュースを発信しているメディアやセキュリティベンダ,公的機関のWeb サイトといった公開情報を活用する OSINT の収集が挙げられるが,多くの場合,1 文書内に含まれる文字量は少なく,複数の文書を参照する必要がある.また,検索エンジンによる文書検索の際に,個人の知見に依存する適切な検索キーワードの選定を行う必要がある.本論文では,Web 上のサイバー脅威情報に関連するOSINT を収集・集約し,サイバー脅威情報を求める者が脅威からの防御に必要な情報をより早く得られるOSINT 自動集約システムを提案する.Web サイト毎のHTMLの構造に着目したスクレイピングにより文書を収集した後,文書の各要素をデータベースに格納する.そして,提案システムの利用者が入力したキーワードによる全文検索と,自然言語処理技術によってWeb 文書から抽出した語をタグとして用いるタグ検索により,文書同士を関連付けて出力する.このシステムにより,サイバー攻撃に関する効率的な情報収集に貢献する., To effectively counter cyber attacks, anticipating attack tactics beforehand is crucial. Open-Source Intelligence (OSINT) collection is a vital method for gathering attack tactic information. It utilizes public sources like media, vendor reports, and public organization websites that share threat intelligence. However, many documents have limited text, requiring cross-referencing of multiple documents. Selecting search keywords also relies on individual expertise while using search engines. In this study, an automated OSINT aggregation system is introduced. It collects cyber threat-related OSINT from the web, helping researchers quickly access vital information for improving threat mitigation. The system uses web scraping to gather documents, focusing on website HTML structure. Document contents are then stored in a database. The system provides access to these documents through full-text search based on user-inputted keywords and tag search using terms extracted from web documents through natural language processing. This system significantly boosts efficiency in gathering cyber attack information.}, pages = {886--892}, publisher = {情報処理学会}, title = {サイバー脅威情報のためのOSINT自動集約システムの提案}, year = {2023} }