トリガとモデル両方の識別不可能性を持つバックドア攻撃

岩花, 一輝; 矢内, 直人; 藤原, 融; Kazuki, Iwahana; Naoto, Yanai; Toru, Fujiwara

WEKO3

インデックスツリー

RootNode

アイテム

トリガとモデル両方の識別不可能性を持つバックドア攻撃

https://ipsj.ixsq.nii.ac.jp/records/214438

名前 / ファイル	ライセンス	アクション
IPSJCSS2021038.pdf (1.1 MB)	Copyright (c) 2021 by the Information Processing Society of Japan
オープンアクセス

Item type

Symposium(1)

公開日

2021-10-19

タイトル

トリガとモデル両方の識別不可能性を持つバックドア攻撃

タイトル

言語

タイトル

Indistinguishable Backdoor Attacks for Triggers and Models

言語

jpn

キーワード

主題Scheme

Other

主題

機械学習，バックドア攻撃，トリガの識別不可能性，モデルの識別不可能性

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_5794

資源タイプ

conference paper

著者所属

大阪大学

著者所属

大阪大学

著者所属

大阪大学

著者所属(英)

Osaka University

著者所属(英)

Osaka University

著者所属(英)

Osaka University

著者名

岩花, 一輝
矢内, 直人
藤原, 融

著者名(英)

Kazuki, Iwahana
Naoto, Yanai
Toru, Fujiwara

論文抄録

内容記述タイプ

Other

内容記述

機械学習のバックドア攻撃は攻撃対象のモデルに対し，トリガと呼ばれるある特定の入力においてのみ攻撃者の意図した不正な出力が得られるような，隠れた領域を埋め込む攻撃である．従来の攻撃手法ではトリガとモデルの挙動からバックドアの存在が検知される問題がある．本稿ではトリガとモデルの挙動双方の観点においても，モデルにバックドアが存在するか識別不可能な新たなバックドア攻撃 IBDF (Indistinguishable Backdoor in Dual Form) を検討する．大まかには，通常の入力と見た目が一致するトリガ付き入力を生成するモデルと，そのトリガを入力する被害者モデルの両方において，中間層の値も識別ができないように競合学習する．実験を MNIST，GTSRB で行ったところ，IBDF は精度と攻撃成功率を損なうことなく，トリガとモデルの識別不可能性を満たすことを示した．関連して，トリガとモデル双方の識別不可能性を満たすことで，トリガの復元やバックドアの除去がより困難になることも期待される．

論文抄録(英)

内容記述タイプ

Other

内容記述

Backdoor Attacks on machine learning are attacks where an adversary obtains the expected output for a particular input called a trigger. In existing backdoor attacks, backdoors are uncovered by analyzing inputs with the trigger or hidden layers of a model, i.e., no indistinguishability. In this paper, we present a novel backdoor attack with indistinguishability for both triggers and models. Loosely speaking, a generative adversarial network (GAN) generates inputs with triggers, which are identical to regular inputs. In parallel, a victim model is trained with the inputs generated by GAN in a manner that values on the hidden layers are indistinguishable from the regular inputs. We demonstrate that our attacks provide high accuracy, attack success rate, and indistinguishability for triggers and models on the evaluation of MNIST and GTSRB datasets. We also identify that our attack can bypass the current countermeasures.

書誌情報

コンピュータセキュリティシンポジウム2021論文集

p. 276-283, 発行日 2021-10-19

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 16:37:57.970421

Show All versions

Cite as

岩花, 一輝, 矢内, 直人, 藤原, 融, 2021: 情報処理学会, 276–283 p.

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

トリガとモデル両方の識別不可能性を持つバックドア攻撃

× 岩花, 一輝

× 矢内, 直人

× 藤原, 融

× Kazuki, Iwahana

× Naoto, Yanai

× Toru, Fujiwara

Versions

Share

Cite as

エクスポート