WEKO3
アイテム
大規模言語モデルを活用した企業秘密情報の識別自動化に関する検討
https://ipsj.ixsq.nii.ac.jp/records/240855
https://ipsj.ixsq.nii.ac.jp/records/2408551772ba06-ade9-4a33-9853-b5b65d76e8c4
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年10月15日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, CSEC:会員:¥0, SPT:会員:¥0, DLIB:会員:¥0 |
Item type | Symposium(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-10-15 | |||||||||
タイトル | ||||||||||
言語 | ja | |||||||||
タイトル | 大規模言語モデルを活用した企業秘密情報の識別自動化に関する検討 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Exploration of automated identification of trade secret information using large language models | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | 機密情報,営業秘密情報,生成AI,文意 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||
資源タイプ | conference paper | |||||||||
著者所属 | ||||||||||
株式会社日立製作所 | ||||||||||
著者所属 | ||||||||||
株式会社日立製作所 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Hitachi, Ltd. | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Hitachi, Ltd. | ||||||||||
著者名 |
森, 承宇
× 森, 承宇
× 加藤, 敦也
|
|||||||||
著者名(英) |
Sho, Mori
× Sho, Mori
× Atsuya, Kato
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 情報資産保護のため,企業や組織は機密情報をドキュメント単位で管理している.先行研究では,工数削減を目的として,ドキュメントの機密・非機密の区分を自動化することが検討されてきた.しかし,この手法では機密に区分された原因と箇所を特定できず,機密とされたドキュメント中の非機密情報を有効に活用できないという問題がある.そこで本研究では,ドキュメント内での機密・非機密情報の区別を明瞭にするセンテンス単位での機密情報管理方式を提案し,企業秘密情報の保護と非機密情報の利活用拡大の両立を目指す.本稿では,センテンス単位で企業秘密情報を秘匿する手順を提案した上で,企業秘密情報を含むセンテンスの識別をGPT-4を用いて自動化することを検討した.学術論文データを機密データの代わりに用いた予備的検証ではF値で83%であり,企業秘密に該当する意味的内容を指定すれば,それを含むセンテンスを高い精度で識別できることが示唆された.提案手法は,保守的な管理では機密として扱われてきた非機密情報の利用を可能とする.これは,大規模言語モデルに学習させることができる企業の情報資源を増やし,その性能向上に寄与する. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | To protect information assets, companies and organizations manage trade secret information on a document-bydocument basis. Prior research has investigated the automation of document classification as confidential or non-confidential to reduce man-hours. However, this method does not identify the specific reasons and sections that cause a document to be classified as trade secret information, thus preventing the effective use of non-confidential information within documents labeled as trade secret information. Therefore, this study aims to develop a management system for trade secret information based on semantic units, which clearly distinguishes between trade secret information and non-confidential information within documents. This approach seeks to achieve both the protection of trade secret information and the expanded use of non-confidential information. In this paper, we propose a procedure for concealing trade secret information at the semantic unit level and examine the automation of identifying sentences containing trade secret information using GPT-4. Preliminary validation using academic paper data instead of confidential data indicated that the F value was 83%, suggesting that the proposed method can identify sentences containing trade secret information with high accuracy if the semantic content that corresponds to trade secret information is specified. The proposed method enables the use of non-confidential information which are categorized as confidential information by conservative management. This increases the information resources that can be trained into large-scale language models and contributes to improving those performances. | |||||||||
書誌情報 |
コンピュータセキュリティシンポジウム2024論文集 p. 805-812, 発行日 2024-10-15 |
|||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |