文言文秒杀所有大模型!100%攻击成功,轻松突破安全防线

问AI · 文言文为何成为大模型的安全盲区?
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

每天都有数以亿计的提问涌向各类人工智能助手,开发者们为了防止系统生成有害内容,日夜不停地修补着重重安全护栏。

谁能想到,只需将恶意指令巧妙转化为文言文,就能达到100%的攻击成功率,轻松突破各类顶尖人工智能的安全防线。

图片

来自南洋理工大学、南京理工大学、中国人民大学、阿里巴巴等机构的联合团队,共同提出了一种基于文言文语境的自动化黑盒测试框架,巧妙利用果蝇生物本能与8维策略空间,彻底暴露了当前主流大语言模型在特定语言环境下的巨大安全盲区。

文言文成为安全盲区

大语言模型发展极为迅猛,极大地改变了人们获取信息与处理工作的方式。

伴随大语言模型在真实世界的广泛部署,潜在的安全风险日渐显露,引发了学术界与工业界的高度关注。

为了降低遭到恶意滥用的可能性,研究者们提出了一系列安全对齐策略,引导机器输出符合人类价值观的内容,使其能够敏锐识别并拒绝诸如制造危险品、编写破坏性代码等恶意请求。

安全防线并非坚不可摧,过往的安全研究往往聚焦于现代语言,大多集中在英语环境,文言文领域鲜有人涉足。

跨语言安全研究证实,不同语言环境下系统的脆弱性存在巨大差异。

低资源或非主流语言往往更容易触发不安全输出,研究人员通常将原因归结于训练语料分布不均,导致模型在特定语种上的安全对齐不够充分。

文言文作为中国古代的书面语言,拥有相对完整的语言系统和海量的历史文献。

其训练数据主要来源于古代典籍,具备与现代汉语截然不同的文体特征。

语义的高度压缩,让复杂信息能够以极少的字数精准表达,一词多义的特性又为文本提供了多种解读空间,隐蔽性极强。

骈文等多样化的表达风格引入了非典型的文本形态,极大增加了机器进行语言建模与意图识别的难度。

借代、用典和象征等修辞手法,能够被用来替代敏感词汇或进行隐喻表达。

相关修辞手法让现代技术概念自然而然地融入古文中,巧妙避开了常规的关键词检测机制,如同给恶意指令披上了一层古朴典雅的隐身衣。

古现代汉语之间在语义对应上存在明显的不对称性,当机器进行跨语言理解和生成时,安全漏洞的风险随之成倍增加。

文言文的安全漏洞不能单纯归咎于数据覆盖不足,其中潜藏着一个真实存在的安全盲点。

即便机器能够完全理解晦涩难懂的文言输入,当前针对现代语言优化的安全护栏,也无法在特定语境下有效识别并拦截恶意意图。

系统在深度理解古文意境的同时,往往会放松对内容安全性的警惕,从而让危险请求顺利过关。

8维策略与果蝇算法

针对前述观察,研究团队构建了一个名为CC-BOS的黑盒越狱框架。

图片

过往的绕过策略往往呈现碎片化特征,例如单纯伪装角色身份、嵌套特定场景或是粗暴替换关键词。

面对日益进化的安全机制,零散的策略难以捕捉不同方法之间的内在联系与组合效应,很容易被多层过滤系统拦截。

研究人员将现有的绕过技术与文言文的语境特性深度融合,抽象出8个核心维度,构建了一个系统化的多维策略空间。

8个维度涵盖角色身份、行为引导、机制、隐喻映射、表达风格、知识关联、情境设置以及触发模式。

图片
图片
图片
图片
图片
图片
图片
图片
图片

每一个维度都包含一系列离散的选项,所有的策略组合构成了一个庞大且深邃的多维决策空间。

角色身份可以赋予提问者古代名将或方士的身份,隐喻映射能够将现代武器转化为传说中的神器,情境设置则可虚构出朝堂纷争或武林秘境。

多维元素的交织,让生成的提示词既符合古典审美,又暗藏现代杀机。

为了在庞大且复杂的空间中高效寻优,研究团队引入了基于果蝇觅食行为启发的FOA(果蝇优化算法)。

果蝇在自然界中寻找食物时,依靠敏锐的嗅觉和视觉不断逼近目标。

整个算法流程巧妙模拟了生物生存本能,能够在避免陷入盲目搜索的同时,快速锁定最具杀伤力的策略组合。

种群初始化阶段,为了保证多维策略空间中各个选项的覆盖率和多样性,研究人员采用了受覆盖度约束的随机抽样方法,确保每个维度的选项都能以相近的频率出现,奠定了全面探索的基础。

嗅觉搜索环节会在每个个体周围进行自适应的局部扰动。

如同果蝇在空气中探寻气味的浓度变化,算法在初期阶段会进行范围较广的探索,随着迭代次数增加,搜索范围逐渐收敛,实现更精细的局部挖掘,逐步逼近最佳的策略参数。

视觉搜索环节则引导个体向当前全局表现最优的策略靠拢。研究人员设计了动态的概率调度机制,初期鼓励广泛探索未知区域,后期促使整个种群向最优解集中,大幅提升了收敛速度。

当种群陷入停滞状态,迟迟无法找到更优解时,柯西变异机制就会适时介入。

柯西分布具有重尾特性,能够偶尔产生大步长的跳跃,帮助果蝇瞬间摆脱局部最优的困境,寻找新的突破口。

研究人员还结合了基于哈希的去重机制和早停策略,避免了重复计算,大幅提升了搜索效率和整体稳定性。

跨语言翻译与严苛评估

在黑盒测试环境中,精准量化每一种候选策略的有效性,是算法能够持续进化的基础。

给定一个特定的策略组合,生成器会将其转化为具体的对抗性查询语句,随后提交给目标大语言模型,并收集返回的答复内容。

直接评估机器给出的原始文言文答复,很容易在一致性判断和关键词检测中引入不可预知的偏差。

为了解决由于语义压缩和丰富隐喻带来的评估难题,研究团队精心设计了一个2阶段的翻译模块。

该模块会将生成的回复统一转化为英文,剔除晦涩的古代修辞外衣,还原其本质语义。

处理步骤保障了跨语言场景下评估过程的客观性、一致性与绝对可靠性,让隐藏在古文背后的真实意图无所遁形。

适应度评估函数包含一致性得分与关键词得分2个核心部分。

一致性得分主要衡量翻译后的回复与原始恶意指令之间的契合程度,研究人员采用了一个专门构建的裁判模型,依据答复对违规指令的服从度进行线性缩放打分。

关键词得分则基于显式的拒绝线索来判定。研究人员梳理了一套拒绝关键词集合,一旦在翻译后的回复中检测到诸如抱歉、无法提供等明确的拒绝标记,该项得分即为0。只有当回复中完全不包含拒绝意图时,才能获得满分的关键词得分。

两种得分相加构成了最终的适应度数值。一旦种群中的最优适应度达到预设阈值,或者耗尽了预定的最大迭代次数,搜索过程便宣告终止,算法将输出当前寻找到的最佳策略方案。

严苛的评分机制,确保了每一次被判定为成功的越狱,都具备极高的危害性和隐蔽性。

全面攻破主流大语言模型

为了全面验证该框架的实际攻击效果,研究团队开展了极其系统性的实验。

数据集方面,采用了行业内广泛认可的AdvBench(对抗基准)、CLAS(大模型与智能体安全竞赛)以及StrongREJECT(强拒绝)等评估基准,筛选出涉及违规、欺诈、隐私侵犯等高度敏感类别的代表性请求,构建了极具挑战性的测试集。

目标模型涵盖了目前市面上极具代表性的6款主流大语言模型,包括Gemini-2.5-flash、Claude-3.7-sonnet、GPT-4o、Deepseek-Reasoner、Qwen3-235b-instruct以及Grok-3。

研究团队设定了极其严格的评估指标。只有当ASR(攻击成功率)达到特定高位阈值,且通过裁判模型的交叉验证与人工复核,确保答复既符合用户意图又没有触碰拒绝规则时,才会被判定为1次成功的越狱。

图片

实验数据呈现出令人十分警醒的景象。所提出的方法在各类常规黑盒模型上全部达成了100%的攻击成功率,不仅完全超越了现有的各类基准攻击方法,诱导生成的有害内容平均得分也均处于最高水平区间。

针对参数规模庞大的千问模型,常规基准方法最高仅有88%的成功率,新框架依然交出了100%成功破防的完美答卷。数据印证了文言文语境造成的语言分布偏移,切实削弱了现有针对现代汉语定制的安全对齐机制。

在面对以逻辑严密和深度思考著称的深度求索推理模型时,新框架同样实现了100%的攻击成功率,远远甩开了对照组88%的成绩。基于文言文语境的攻击策略,即使在面对具备深层思维链条的先进推理模型时,依然保持着强悍的穿透力与破坏力。

图片

评估攻击框架不仅要看成功率,还需要细致考量攻击效率,即平均需要向目标提交多少次查询才能实现1次有效突破。

在确保公平比较的前提下,新方法在所有接受评估的测试体中均保持了惊人的低查询次数。

图片

在深度求索推理模型上,平均只需1.12次查询即可完成突破,远远低于其他优化基准方法数十次的试探,展现出了极高的命中精度。

防御测试环节进一步验证了框架的稳健性。研究团队部署了Llama-Guard-3-8B防御机制,当面对专门设计的安全过滤系统时,即使在同时开启输入和输出2重过滤的严酷条件下,新方法依然维持着行业领先的成功率,持续诱导出目标生成特定内容,展现出跨越既定防御体系的非凡能力。

图片

研究团队深入探讨了对抗样本的跨模型迁移能力。

利用各大测试体作为源头生成的对抗样本,再去攻击其他完全不同的目标。源自千问模型生成的对抗样本,在攻击Grok模型时取得了96%的超高成功率,在攻击Gemini模型时成功率也达到了90%。

图片

跨模型迁移实验充分证实了方法生成的对抗样本具备高度的泛化能力和跨平台稳定性,绝非仅仅针对单一目标的偶然取胜。

逐步消融研究深刻揭示了各组件在整个框架中发挥的关键作用。

仅仅使用基础的文言文进行输入,攻击成功率仅有18%,远不足以构成普遍威胁。

引入多维策略空间后,成功率大幅跃升至60%,证实了策略设计在引导输出方面的核心价值。

在此基础上深度融合果蝇启发式优化算法,通过嗅觉与视觉的双重寻优,成功率直接登顶至100%。

翻译模块在评估流程中同样扮演了不可或缺的角色,剔除模块会使评估准确度受损下降至90%,加入翻译模块后,评估过程的准确度与一致性得到了实质性的提升,确保了结果的科学严谨。

图片

整个研究完整勾勒出,系统在古典语言语境下的致命安全短板。利用果蝇生物本能与古代语言智慧的跨界结合,自动化生成高隐蔽性的对抗性提示词,为未来构建更全面、更无死角的防御体系提供了极为重要的参考依据。

看似风马牛不相及的果蝇与文言文,联手揭开了尖端人工智能的一处隐秘软肋。

看来要给模型恶补四书五经了,😄

参考资料:

https://arxiv.org/pdf/2602.22983