Attack as Defense

原文

意义和提出

传统的模型编辑是编辑作为推理的结果，所以传统后门的效果是当进行模型编辑的时候，后台给模型加一个后门标识，产生指定的更改结果

本文的模型编辑后台加一个mask noise，来保护指定的区域，在推理阶段不能根据text更改

并且使用的是原模型，只在推理阶段进行添加noise就可以达到保护的效果，所以称为运行时

利用的是后门可以指定激活一些神经元的特性，所以可以通过激活指定神经元来达到保护指定的区域的效果，同时保证其他区域的编辑和生成不受影响，确实很像后门

三个优化目标：

植入损失，
不完全触发损失，保持保护区域的激活
隐藏损失，保证编辑区域的可用性

三方：

模型商
用户
图片版权拥有者

很简单的思路：给定模型，对抗模型，训练noise来干扰功能，具体的idea是针对什么模型作出干扰，考虑两方面：

模型的选择，根据有没有实际的应用价值，以及前人有没有做过相关工作
没有工作就老方法解决新问题，探索新的模型的安全问题，Attack as Defense属于这个
有工作就新方法解决老问题，使用新的对抗或者优化方法，BadPart属于这个

原理

期望效果

训练出一个产生noise的模型，对于给定的mask和图片，可以生成对抗性的noise，能有效对抗给定的模型，也算是一个黑盒方法

数学推导

原始的后门模型

修复损失(inpainting loss)：

原始图像和生成图像的像素差异$L_{inpaint}$
生成器的损失$L_{adv}$

其中的inpaint损失改为具有后门监督的损失，可以训练出具有后门的修复模型

Run-time backdoor

基于现有模型，不需要训练阶段的后门植入

$\mathcal{L}_{implant} = \mathbb{E}_{\phi, \mathcal{P}(x), m}\space[\begin{Vmatrix}\phi_x - \mathcal{IM}(\mathcal{P}(x),\mathcal{T}(m))\end{Vmatrix}^2]$ $\mathcal{L}_{hide} = \mathbb{E}_{ \mathcal{P}(x), m}\space[\begin{Vmatrix}\mathcal{IM}(x,m_0) - \mathcal{IM}(\mathcal{P}(x),m_0)\end{Vmatrix}^2]$

其中：

$\mathcal{P}(x)=x\otimes\mathcal{P}$ P是可训练的受保护区域的参数(?模型中的表现是什么:原始图片上加了一个可训练的随机噪声noise)
$\phi_x$是target
$\mathcal{IM}(\mathcal{P}(x),\mathcal{T}(m))$是加了扰动的保护图片
$m_0$是除了保护区域之外的区域掩码

有加一个扩展掩码，因为实验结果表明只有部分区域能够收到保护，所以需要向外扩展一圈

更改后的公式：

$\mathcal{L}_{incomplete} = \mathbb{E}_{\phi, \mathcal{P}(x), m}\space[\begin{Vmatrix}\phi_x - \mathcal{IM}(\mathcal{P}(x),\mathcal{E}(m))\end{Vmatrix}^2]$ $\mathcal{L}_{hide} = \mathbb{E}_{ \mathcal{P}(x), m}\space[\begin{Vmatrix}\mathcal{IM}(x,\mathcal{E}'(m)) - \mathcal{IM}(\mathcal{P}(x),\mathcal{E}'(m))\end{Vmatrix}^2]$

其中，

扩展区域掩码为$\mathcal{E}(m)$
不属于原有的掩码但是属于现有掩码的部分为$\mathcal{E}’(m)$ $\mathcal{E}'(m) = max(0,min(1,\mathcal{E}(m) - \mathcal{T}(m))))$

总损失：

$\mathcal{L}_{total} = \mathcal{L}_{impaint} + \mathcal{L}_{inconplete} + \mathcal{L}_{hide}$

经实验证明，设置超参：

hide的权重为2
noise的迭代训练次数为20

简而言之就是给了两个优化目标，一个是保护区域，指标是能够加了保护噪音，一个是未保护区域保持原有功能

流程图

整体过程：对于给定的模型，根据原始图片和修改的mask，计算模型修改加了noise以后的修改结果和target之间的均方误差，然后更新noise来达到对抗修改的效果

代码实现：

$\phi_x$:

# target是颜色为和原始图像中的平均颜色差别最大的颜色，尺寸为noise的目标图片
target = generate_target(ori_fname, (adv_noise.shape[3],adv_noise.shape[2])).to("cuda")

# 创建一个新的颜色为find_color_with_max_difference的图像
def generate_target(image, size):
    img = PIL.Image.open(image)
    width, height = img.size
    max_diff_color = find_color_with_max_difference(img)

    new_img = PIL.Image.new('RGB', (width, height), max_diff_color).resize(size)
    new_img = preprocess(new_img)

    return new_img

# 和图像平均颜色差异最大的颜色
def find_color_with_max_difference(img):
    pixels = np.array(img)

    average_color = np.mean(pixels, axis=(0, 1))
    average_color = tuple(average_color.astype(int))

    unique_colors = [(0,255,0),(255,0,0),(0,0,255)]
    random.seed(42)
    torch.manual_seed(42)
    torch.cuda.manual_seed(42)
    # for _ in range(4):
    #     color = tuple(np.random.randint(0, 256, 3))
    #     unique_colors.append(color)
    differences = [np.sum((np.abs(np.array(average_color) - np.array(color))/255)**2) for color in unique_colors]

    max_diff_index = np.argmax(differences)
    max_diff_color = unique_colors[max_diff_index]

    return max_diff_color

扩展掩码：

def expand_mask(mask_tensor, exp_size):
    assert len(mask_tensor.shape) == 4 and mask_tensor.shape[0] == 1 and mask_tensor.shape[1] == 1, \
        "the shape of mask has to be:  1x1xheightxwidth"

    kernel = torch.ones(1, 1, exp_size, exp_size, dtype=torch.float32, device=mask_tensor.device)
    padding_size = (exp_size - 1) // 2 #大小不变

    expanded_mask = F.conv2d(mask_tensor.float(), kernel, padding=padding_size)
    expanded_mask = (expanded_mask > 0).float()

    return expanded_mask

'''main'''
expd_mask = expand_mask(batch_ben['mask'], 17)
batch_adv_expd['mask'] = expd_mask.to("cuda")

$\mathcal{E}’(m)$（barch_adv_hide）:

batch_adv_hide['mask'] = batch_adv_expd['mask'] - batch_ben['mask']
batch_adv_hide['mask'].data = torch.clip(batch_adv_hide['mask'].data, 0, 1)
batch_adv_hide['mask'] = (batch_adv_hide['mask'] > 0) * 1
batch_ben_hide['mask'].data = batch_adv_hide['mask'].data

超参，hide的权重为2，noise的迭代训练次数为20:

# 
loss = loss_attack + loss_incp + 2*loss_hide
# the number of training iterations for the protective noise to 20
for i_iter in range(20)

loss，对应公式区域:

'''
lama模型修改以后返回的结果,adv图像加了噪声
attack_res: adv掩码原始掩码
adv_hide_res: adv_hide掩码为E'(m)
adv_expd_res: adv_expd掩码为扩展
'''
attack_res = model(batch_adv)[predict_config.out_key][0]
adv_expd_res = model(batch_adv_expd)[predict_config.out_key][0]
adv_hide_res = model(batch_adv_hide)[predict_config.out_key][0]

with torch.no_grad():
ben_hide_res = model(batch_ben_hide)[predict_config.out_key][0]

# loss
loss_attack = mse_masked(attack_res, target, batch_adv['mask'])
loss_incp = mse_masked(adv_expd_res, target, batch_adv_expd['mask'])
loss_hide = mse_masked(adv_hide_res, ben_hide_res, batch_adv_hide['mask'])

print("iter", i_iter, ", attack loss: ", loss_attack.data, ", incp loss: ", loss_incp.data, ", hide loss: ", loss_hide.data)
loss = loss_attack + loss_incp + 2*loss_hide
loss.backward()
optimizer.step()

Writing

introduction的惯例，写总结,读文章可以先读这个部分和摘要，把这篇文章的地位和意义搞清楚，再去了解背景细节

Method要体现出和原始方法的对比

Question

为什么将noise训练的target设置为和原始图片颜色差异最大的纯色图片？
颜色差异最大是因为目标越极端，修改模型越依赖准确的梯度来进行优化，极端的颜色目标在颜色空间中与原始图片的距离最远，意味着要修改成原始图片的颜色的开销最大，为了将图片修改成这个目标颜色，修改模型需要在颜色空间中执行极大的变换，在这种极端目标下，噪声的扰动会显著干扰修改模型的梯度流，从而更难以找到有效的修改方向
如何保证noise以纯色图片为target但是优化结果是肉眼不可见的图片？
限制noise在训练过程中的取值范围：
adv_noise.data = torch.clip(adv_noise.data, -0.025, 0.025)范围小就肉眼不可见
可以不用纯色，差异大就可以，使用纯色是因为好生成