Fork me on GitHub

《Robust Physical-World Attacks on Machine Learning Models》论文笔记

Title: Robust Physical-World Attacks on Machine Learning Models
Authors: Evtimov, Ivan; Eykholt, Kevin; Fernandes, Earlence; Kohno, Tadayoshi; Li, Bo; Prakash, Atul; Rahmati, Amir; Song, Dawn
Publication: eprint arXiv:1707.08945
Publication Date: 07/2017
Origin: ARXIV
Keywords: Computer Science - Cryptography and Security, Computer Science - Learning
Bibliographic Code: 2017arXiv170708945E

citation

Evtimov I, Eykholt K, Fernandes E, et al. Robust Physical-World Attacks on Machine Learning Models[J]. 2017.

概述

 最近的研究中,许多对抗样本构造方法在真实自然世界效果不好。已有的对抗攻击研究在现实世界中,往往不能使分类模型误分类,或者只在非常有限的情况比如复杂原始图像经修改后打印出来才能达到对抗攻击的目的。
 本论文要点如下:

  1. 提出Robust Physical Perturbations(RP2)算法,能产生鲁棒且自然有效的对抗扰动。
  2. 使用RP2算法用两种方式构造对抗攻击:
    — subtle perturbations:对整个标志进行微小的、很难探测到的改动。把整个受到攻击后的图片打印后覆盖到原标志上面,尺寸和原图一样。
    — camouflage perturbations:以涂鸦或艺术画的形式对原图进行可见的改变。攻击者直接将扰动攻击打印出来,然后贴到已经存在的标志上面。
  3. 因为目前缺乏衡量自然界对抗攻击效果的标准方法,因此论文提出了一种评估方法。

Introduction

  • 提出在physical world也有效的对抗样本生成算法的原因:
  1. 一方面,《No need to worry about adversarial examples in object detection in autonomous vehicles》(J. Lu, H. Sibai, E. Fabry, and D. Forsyth, “No need to worry about
    adversarial examples in object detection in autonomous vehicles,” arXiv
    preprint arXiv:1707.03501, 2017.)研究FGSM和L-BFGS算法,发现生成的路面警示标志的对抗样本在多种观察条件下效果很差(改变角度和距离)。另一方面,《Synthesizing robust adversarial examples》(A. Athalye and I. Sutskever, “Synthesizing robust adversarial examples,”arXiv preprint arXiv:1707.07397, 2017.)说明可以通过更好的对抗样本算法来生成扰动图片,在图片被打印出来用相机来观察时在各种情况下都是鲁棒的。
  2. 在针对分类的对抗攻击可行性上面,仍然有许多遗留问题。首先,给目标的背景增加扰动不可实现。第二,相比于目前所用的复杂图片,将扰动隐藏在像路标这种简单的目标中是更加困难的。第三,对于难以感知的扰动, 还有额外的物理上的限制,因为轻微的扰动可能让相机在多种自然情况下不能获取这些扰动信息(如长距离和多角度情况下)。
  3. 本论文的主要目的:对真实世界目标构建robust且轻微的扰动是否可行。
  • 需要解决的问题:
  1. 汽车中的相机与路标的距离一直在变化
  2. 汽车中的探测相机与路标的角度一直在变化
  3. 光线强弱变化
  4. 在路标或者汽车上的遮挡物

这一部分先总结了三种对抗样本的生成方法:

  • (I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” arXiv preprint arXiv:1412.6572, 2014.) 提出的FGSM方法。
  • (N. Carlini and D. Wagner, “Towards evaluating the robustness of neural networks,” in Security and Privacy (SP), 2017 IEEE Symposium on.IEEE, 2017, pp.39–57.)提出的基于迭代优化算法在一定限制下查找perturbation。
  • (S.-M. Moosavi-Dezfooli, A. Fawzi, O. Fawzi, and P. Frossard, “Universal adversarial perturbations,” arXiv preprint arXiv:1610.08401, 2016.)提出的能应用到黑盒攻击中的无目标攻击,在各种对抗图片生成上都有效果。

这三种方法都假设能得到输入向量的数字层面的特征,这在自然情况自动汽车背景下不适用。同时,它们都需要perturbation程度比较小且不可见,因为直接以数字向量作为神经网络输入时,这种微小的perturbation不会被破坏。但是,如果把修改后的样本打印到纸张上,那么这种在自然界重建perturbation的过程就会在每个步骤造成信息的损失。因此(J. Lu, H. Sibai, E. Fabry, and D. Forsyth, “No need to worry about adversarial examples in object detection in autonomous vehicles,” arXiv preprint arXiv:1707.03501, 2017.)证实了这些方法在真实世界中效果不好。

然后介绍了本论文中两种攻击方式的由来:

Experiment

数据集:LISA数据集,包含47种不同的路标图片,在本实验中重设尺寸为32×32
实验用TensorFlow工具构建分类器,神经网络结构为:三成带有全连接层的卷积层。最终的分类器准确率为91%。
攻击过程的选择,本实验只能修改测试集数据,即是evasion attacks
攻击流程:

1. 得到没有对抗perturbation的干净目标路标图
2. 预处理路标图(维度等)将之作为分类器的输入
3. 用攻击算法处理分类器和提取的路标图片
4. 用映射函数在路标上输出相应的对抗perturbation的物理位置
5. 构建数字对抗perturbation,并基于上面函数的输出将这个改动应用到物理目标中。

自然对抗perturbation的评估方法:
受自然情况下环境条件、空间限制、样本构建误差、维度变化和不可探测的物理限制等影响,在评估对抗样本效果时,论文考虑了三个主要的方面:距离、角度和维度

Robust Physical Perturbations(RP2)算法:
是一种优化的扰动生成方法,在untarget对抗攻击时,目标函数为

$$argmin_λ||δ||_p − J(fθ(x + δ),y)$$
即是让加入扰动后的输出损失越大越好。
在target对抗攻击时,目标函数为

即是让加入扰动后输出损失与特定目标差别越小越好。
其中λ都代表对扰动规模的限制。

Future work

  1. 因为论文用的交通标志比较有限,考虑使用更多的交通标志完成target classification attack。
  2. 增加一种扰动补偿的步骤到已有的对抗攻击生成流程中。
  3. 在更多现实场景下测试算法,比如标志遮挡。
  4. 因为自动汽车的视觉次级系统主要有两个组成部分:一个是目标探测器,一个是分类器。本文主要是研究了对分类器的攻击,但是对目标探测器的攻击也可以达到攻击目的。(P. Viola and M. Jones, “Rapid object detection using a boosted cascade of simple features,” in Computer Vision and Pattern Recognition, 2001.CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on, vol. 1. IEEE, 2001, pp. I–I.)和(P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained part-based models,” IEEE transactions on pattern analysis and machine intelligence, vol. 32, no. 9,
    pp. 1627–1645, 2010.)

问题

  1. 还没有实验证明,对原始数据perturbation的程度应该是多少才不至于被人类观察者注意到。
  2. 构建perturbation的时候,如果只讲这种对抗攻击的信息体现在黑白灰度层面而不是彩色,可能会让生成的对抗样本更加robust。
-------------本文结束感谢阅读-------------