@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00240844, author = {廣瀬, 雄大 and 向田, 眞志保 and 小野, 智司 and Yudai, Hirose and Mashiho, Mukaida and Satoshi, Ono}, book = {コンピュータセキュリティシンポジウム2024論文集}, month = {Oct}, note = {深層ニューラルネットワークは画像認識や医療画像診断など様々な分野で活用されているものの,入力に特殊な摂動を加えることで誤った結果を出力するAdversarial Example (AE)と呼ばれる脆弱性の存在が明らかになっている.このような脆弱性は入力に対する推論根拠を出力する説明可能AI(eXplainable AI)にも例外なく存在する.説明可能AIとしてはGradCAMやGuidedBackPropagationなどの画像解釈器が提案されているが,これらの解釈器に対する脆弱性の検証は十分に行われていない.そこで本研究では,進化型最適化手法であるSep-CMA-ESを用いた,標的型敵対的攻撃手法を提案する.提案手法ではモデルの内部構造が使えないブラックボックス条件下において,予測ラベルは維持したまま解釈結果を特定の画像の解釈となるように誤らせる脆弱性の存在を明らかにした., Deep neural networks(DNNs) are used in various fields such as image recognition and medical image diagnosis. However, DNNs have a vulnerability called an Adversarial Example (AE), which can cause incorrect output by applying special perturbations to inputs. Such vulnerabilities have also been found to exist in eXplainable AI, which provides a basis for prediction on inputs. Image interpreters such as GradCAM and GuidedBackPropagation have been proposed as explainable AI. However, the vulnerabilities of these interpreters have not been sufficiently verified. In this study, we propose a targeted adversarial attack method based on an evolutionary optimisation method, Sep-CMA-ES. The proposed method reveals the existence of a vulnerability under black box conditions, where the internal structure of the model is not available, that allows the interpretation result to be misinterpreted as an interpretation of a particular image, while maintaining the predictive labels.}, pages = {719--726}, publisher = {情報処理学会}, title = {ブラックボックス条件下における画像解釈器への標的型敵対的攻撃}, year = {2024} }