AI对抗攻击-黑盒攻击

1. 黑盒攻击的分类

Score-based attacks

缺点:需要输出分类的概率分布(不再介绍)

论文:

Narodytska, Nina, and Shiva Kasiviswanathan. "Simple Black-Box Adversarial Perturbations for Deep Networks." (2016).

Transfer-based attacks

不依赖模型结构和网络权重,但是需要大概知道网络的结构

论文:

Papernot, Nicolas, Patrick McDaniel, and Ian Goodfellow. "Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples." (2016).

Papernot, Nicolas, et al. "Practical black-box attacks against machine learning." Proceedings of the 2017 ACM on Asia conference on computer and communications security. 2017.

Decision-based attacks

只需知道输出标签,但是查询次数比较多,上万次甚至数十万次

论文:

Brendel, Wieland, Jonas Rauber, and Matthias Bethge. "Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models." International Conference on Learning Representations. 2018.

2. Decision-based attacks

基于决策的攻击方法,对于有目标攻击,需要使用一个可以被分类为目标标签的图像,而对于无目标攻击,则需要一张随机噪声图像作为“starting image”。

该方法首先是需要从“stating image”到"original image", 使用二分查找法,找到决策的边界点,之后沿决策边界线移动,直到找到一个和"original image"比较相似的图像。

image-20231116170331631

对于每一步移动,可以看下图:首先是在垂直于原图径向方向上随机移动,保证走的这一步不会增大到原图像的距离,第二步是通过线查找,找到决策边界点。

image-20231116170641355

3. Transfer-based attacks

该方法可分为以下几个步骤:

  1. 选择目标模型作为被攻击对象,需要对目标模型的大体结构有一定了解
  2. 收集数据集,需要和目标模型训练集有一定的相似性
  3. 生成替代模型,替代模型的结果需要与目标模型有一定的相似性,目标模型的步骤如下:

    其中Oracle DNN O为目标模型,F为替代模型。

    image-20231116171034140

  4. 在替代模型上生成对抗性样本

该方法的关键就是使用了雅克不矩阵的方法对训练数据进行增强,使得训练出来的替代模型与目标模型比较接近,这样只需对替代模型进行白盒攻击,就可以实现对目标模型的黑盒攻击。

4. 开源代码

一些关于黑盒攻击的开源代码仓库:

https://github.com/BenBadnani/Boundary-Attacks

https://github.com/davidguzmanr/Practical-Black-Box-Attacks-against-Machine-Learning