ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. コンピュータセキュリティシンポジウム
  4. 2021

トリガとモデル両方の識別不可能性を持つバックドア攻撃

https://ipsj.ixsq.nii.ac.jp/records/214438
https://ipsj.ixsq.nii.ac.jp/records/214438
9440d19b-bec9-4ddc-8447-30e69d9aed15
名前 / ファイル ライセンス アクション
IPSJCSS2021038.pdf IPSJCSS2021038.pdf (1.1 MB)
Copyright (c) 2021 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2021-10-19
タイトル
タイトル トリガとモデル両方の識別不可能性を持つバックドア攻撃
タイトル
言語 en
タイトル Indistinguishable Backdoor Attacks for Triggers and Models
言語
言語 jpn
キーワード
主題Scheme Other
主題 機械学習,バックドア攻撃,トリガの識別不可能性,モデルの識別不可能性
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
大阪大学
著者所属
大阪大学
著者所属
大阪大学
著者所属(英)
en
Osaka University
著者所属(英)
en
Osaka University
著者所属(英)
en
Osaka University
著者名 岩花, 一輝

× 岩花, 一輝

岩花, 一輝

Search repository
矢内, 直人

× 矢内, 直人

矢内, 直人

Search repository
藤原, 融

× 藤原, 融

藤原, 融

Search repository
著者名(英) Kazuki, Iwahana

× Kazuki, Iwahana

en Kazuki, Iwahana

Search repository
Naoto, Yanai

× Naoto, Yanai

en Naoto, Yanai

Search repository
Toru, Fujiwara

× Toru, Fujiwara

en Toru, Fujiwara

Search repository
論文抄録
内容記述タイプ Other
内容記述 機械学習のバックドア攻撃は攻撃対象のモデルに対し,トリガと呼ばれるある特定の入力においてのみ攻撃者の意図した不正な出力が得られるような,隠れた領域を埋め込む攻撃である.従来の攻撃手法ではトリガとモデルの挙動からバックドアの存在が検知される問題がある.本稿ではトリガとモデルの挙動双方の観点においても,モデルにバックドアが存在するか識別不可能な新たなバックドア攻撃 IBDF (Indistinguishable Backdoor in Dual Form) を検討する.大まかには,通常の入力と見た目が一致するトリガ付き入力を生成するモデルと,そのトリガを入力する被害者モデルの両方において,中間層の値も識別ができないように競合学習する.実験を MNIST,GTSRB で行ったところ,IBDF は精度と攻撃成功率を損なうことなく,トリガとモデルの識別不可能性を満たすことを示した.関連して,トリガとモデル双方の識別不可能性を満たすことで,トリガの復元やバックドアの除去がより困難になることも期待される.
論文抄録(英)
内容記述タイプ Other
内容記述 Backdoor Attacks on machine learning are attacks where an adversary obtains the expected output for a particular input called a trigger. In existing backdoor attacks, backdoors are uncovered by analyzing inputs with the trigger or hidden layers of a model, i.e., no indistinguishability. In this paper, we present a novel backdoor attack with indistinguishability for both triggers and models. Loosely speaking, a generative adversarial network (GAN) generates inputs with triggers, which are identical to regular inputs. In parallel, a victim model is trained with the inputs generated by GAN in a manner that values on the hidden layers are indistinguishable from the regular inputs. We demonstrate that our attacks provide high accuracy, attack success rate, and indistinguishability for triggers and models on the evaluation of MNIST and GTSRB datasets. We also identify that our attack can bypass the current countermeasures.
書誌情報 コンピュータセキュリティシンポジウム2021論文集

p. 276-283, 発行日 2021-10-19
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 16:37:57.970421
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3