今年以来,Best-of-N (BoN) 方法火爆 LLM 圈子,例如 Google DeepMind 提出 BoND (Distillation) 做 RLHF、DeepMind 提出改进 BoN 的 GenRM 算法、斯坦福和剑桥大学联合推出的“无限猴子定理”、ETH 提出的 BoN Alignment...
就在最近,Anthropic 尝试在越狱问题上使用 BoN,推出了“Best-of-N (BoN) Jailbreaking”,一种简单却极其有效的越狱方法,不仅针对文本,还能轻松攻破视觉和音频模态的防线,现有最先进的大模型全部沦陷!多模态 AI 的安全“罩门”被精准地戳破,BoN 真是强得可怕!
论文题目:
Best-of-N Jailbreaking
论文链接:
https://arxiv.org/pdf/2412.03556
1. BoN 越狱法:重复采样,直到突破
咱们先来看一下 Best-of-N 是什么。
“Best of N” 通常用于描述一个重复试验的机制或策略,目的是通过多次尝试从中选出表现最好的一次结果。简单来说,“Best of N”表示在 N 次尝试或评估中,选出其中最优的一个结果。
那么,Best-of-N Jailbreaking 简单来说就是:
“重复尝试,直到成功绕过模型防御。”
它怎么玩的呢?
黑盒模式无压力突破:不需要模型的梯度、不需要对模型架构有任何了解,纯靠外部采样。 随机性是关键:每次对输入内容做各种小改动(例如对文本输入随机大写等),直到诱导大模型生成有害内容,或达到最大攻击次数限制 N。
听起来很简单?但极其有效!
它有多强?“89% 的攻击成功率(ASR)”,直接让最强的 AI 模型都跪了!
哪怕是像 GPT-4o、Claude 3.5 这种顶流模型,也直接顶不住!
2. 跨模态攻击:文本、视觉、音频全覆盖
跨模态攻击——这才是 BoN Jailbreaking 的杀手锏。
以前的攻击多集中在文本,比如“编故事”、“绕语义”等,但 BoN Jailbreaking 直接扩展到视觉和音频模态!
文本攻击:通过简单的字符增强,例如随机大写、字母替换,打破模型防御。 图像攻击:改字体、改颜色、加背景,让模型在图像提示中出错。 音频攻击:调音调、加噪声、改语速,一样有效。
举个栗子:如果问 AI“怎么造炸弹”,直接问肯定过不了防御,但 BoN Jailbreaking 会尝试“1 万种问法”,比如把原本的“爆炸装置如何制作”通过以下方式改成多种版本:
字符打乱:bào zhá z... 随机大写:BaO ZhA Z... 字符噪声:b`ao zh_a ...
这种输入变形听起来没啥技术含量,但在 AI 眼里就是“千变万化的陷阱”。
3. 模态细分战绩:从文本到音频无一幸免
现在我们来看看 BoN Jailbreaking 具体战绩究竟如何?
(1)文本模态:效率王
在文本模态下,BoN Jailbreaking 是最强的——GPT-4o 被打得“满地找牙”,ASR 高达 89%。 更吓人的是,即便只采样 100 次,成功率也能有 50%!而成本只有 9 美元。因此,这对于计算受限的对手来说仍然非常有效。
(2)视觉模态:略逊一筹
对图像的攻击,BoN Jailbreaking 采用了文字变化策略(字体、颜色、背景等)。在 GPT-4o 和 4o-Mini 上分别实现了 56% 和 67% 的 ASR。 不过相比文本,图像模态的成功率稍低,毕竟图像模型对视觉干扰的鲁棒性更强些。
(3)音频模态:攻击黑马
BoN 用音调、语速、背景噪声等变换对音频模态下手,对 GPT-4o 的语音接口攻击成功率达 72%。 比如你原本问“如何制造有害物品”,BoN Jailbreaking 可以在背景加点嘈杂音乐,结果模型就被绕过去了!
4. 越狱界的“Scaling Law”
本文对观察到的 ASR 进行建模,得到一个非常酷的发现:BoN Jailbreaking 的攻击成功率跟采样次数呈幂律关系! 换句话说:越努力,越“越狱”!
基于这个观察,他们尝试拟合 ASR 曲线,最后得出“ASR 预测公式”:
公式中的 a 和 b 分别是初始值和衰减参数。通过采集 1000 次采样数据后,他们利用回归拟合,得到了幂律模型的参数,然后用来预测更大采样量下的 ASR 表现。预测误差仅为 4.4%,足够精准!
这个规律也可以用于高效评测模型风险。举个例子,预测 N=10,000 时的 ASR 值只需基于 N=1000 的初始数据!这一技术可以帮助防御者快速评估潜在风险,而不需要浪费大量计算资源。
5. BoN Jailbreaking 的“秘诀”:随机性才是王道!
有人可能会问,这种“随便打乱再试”的策略为啥这么有效?难道 LLM 没有一点鲁棒性吗?这背后其实隐藏了两个关键点。
增强的“信息熵”
通过对输入的字符、大写、小写甚至音调的随机增强,BoN Jailbreaking 大幅提高了模型输出分布的熵值,从而增加攻击成功率。
实验结果表明,和普通的静态输入相比,BoN Jailbreaking 在所有模态下的成功率提升了 3 倍以上!
作者猜测这是因为它们大大增加了有效输出分布的熵,从而提高了算法的性能。
输入多样性 vs 模型输出随机性
这里想解决一个关键性问题:这些成功的越狱输入,是否在重采样时仍然具有同样的越狱能力?换句话说,这种成功是因为真正找到了模型的“漏洞”,还是纯粹依赖于模型输出的随机性?
实验结果表明,成功的越狱输入在重新采样时的成功率并不高,通常仅有15%-30%的概率再次生成有害内容。
总结一句话:BoN 虽然强大,但它的成功大多是“靠运气”,而不是“靠实力”。
6. 双管齐下:复合式攻击效率惊人!
虽然 BoN 单兵作战已经够厉害了,但研究人员并不满足。他们进一步探索了 BoN 与其他越狱技术的复合式攻击,结果发现,这种组合拳可以大幅提升攻击效率!
比如,将 BoN 和一种叫 Prefix PAIR 的前缀攻击结合起来,ASR 提升幅度可达 35%,且采样效率提高了 10 倍以上!具体来说:
在文本模态中,结合前缀的 BoN 效率提升 28 倍; 在视觉模态中,攻击成功率从 32% 直接翻倍到 70%; 在音频模态中,更是从 59% 飙升至 87%,效率提升 222 倍!
一句话总结:BoN 与复合式攻击的结合,简直是“开挂级别”的威胁。这让我们更清楚地看到,模型的防线在面对复杂多变的攻击方式时有多脆弱。
小结:AI 攻防战的未来
Anthropic 提出的 BoN Jailbreaking 方法不仅简单,而且威力巨大。它为我们揭示了 AI 模型防御机制中的“深水区”。更重要的是,通过随机性和复合式攻击,这种方法展示了它在文本、视觉和音频领域无处不在的强大能力。
总得来说,大模型安全机制的提升还有很长的路要走,而 BoN Jailbreaking 则是提醒我们:简单的策略也能撬动最强大的模型。