4月7日,Anthropic发布了名为Claude Mythos的预览版模型,以及配套的Project Glasswing计划。
该公司声称,Mythos能够自主发现跨越主流操作系统和网络浏览器的数千个零日漏洞,其中包括OpenBSD中存在了27年的漏洞、FFmpeg中隐藏了16年的漏洞。此外,该模型还能自主编写针对FreeBSD的远程代码执行漏洞利用。
这些发现在安全领域引起震动。如果属实,意味着AI在漏洞挖掘和利用生成方面已经达到了此前只有顶级安全专家才能企及的水平。
然而,开源AI社区HuggingFace的首席执行官克莱门特·德朗格(Clement Delangue)对这一说法表示了强烈质疑。他转发了网络安全AI平台AISLE首席科学家斯坦尼斯拉夫·福特(Stanislav Fort)的分析文章,并连续发表评论,认为Anthropic的叙事存在夸大成分。
福特团队进行了一项独立的对照测试。他们从Anthropic公告中提取了那些被声称发现的漏洞,将相关代码隔离出来,然后用多个模型进行分析,其中既包括Anthropic自己的模型,也包括一系列开源、开放权重的模型。
参与测试的模型包括:GPT-OSS-20b(36亿活跃参数,每百万token成本0.11美元)、GPT-OSS-120b(51亿活跃参数)、Kimi K2、DeepSeek R1、Qwen3 32B、Codestral 2508、Gemini 3.1 Flash Lite以及Gemma 4 31B。
测试结果出乎意料。
德朗格援引了福特团队的发现称,八个模型都检测到了Mythos的旗舰FreeBSD漏洞,其中包括一个只有36亿活跃参数、每百万token成本仅为0.11美元的模型。一个51亿活跃参数的开源模型恢复了27年前的OpenBSD漏洞的核心链条。
换句话说,Anthropic所展示的那些惊人能力,并不依赖于某种只有他们才拥有的、未公开的超级模型。市面上已有的一些小型、低成本、开源模型,同样能够做到。
德朗格还引用了福特的判断:防御者的首要任务是现在就开始构建:脚手架、管道、维护者关系,以及集成到开发工作流程中。模型已经准备好了,问题是生态系统的其余部分是否准备好了。
福特的意思是,AI的网络安全能力已经真实存在,甚至已经普及化。现在真正的瓶颈不在于模型本身是否够强,而在于整个开发和安全生态能否把这些能力有效地用起来。
最后,德朗格还讽刺称:“Anthropic拥有这个世界上最强大的网络安全模型,但他们的内部代码不还是泄露了?”
他指的是此前Anthropic被曝出的源代码泄露事件。德朗格解释称:一家公司宣称自己的模型能发现全世界最隐蔽的漏洞,是最强的安全防御工具,但自身的基本安全防护——代码托管和访问控制——却没有做好。这种反差让他对Anthropic的安全叙事产生了根本性质疑。
他进一步阐述了自己的安全哲学:“我们应该假设每个人都可能被攻破,并构建这样的系统:让攻击的成本高于回报,当攻击成功时限制破坏范围,在发现弱点后创建快速修复循环,并降低系统性风险。开源将在这一切中发挥重要作用。”
福特在《AI网络安全:Mythos之后,锯齿状前沿》一文中详细阐述了测试过程。以下是几个关键案例。
FreeBSD NFS漏洞(存在17年的远程代码执行漏洞):团队隔离了易受攻击的svc_rpc_gss_validate函数。全部八个模型都正确识别出栈缓冲区溢出,计算出剩余空间,并评估为严重等级。其中,最轻量级的模型仅有36亿活跃参数。
OpenBSD SACK漏洞(需要数学推理的有符号整数溢出漏洞):只有51亿活跃参数的开源模型GPT-OSS-120b在一次调用中复现了核心利用链,并提出了与实际OpenBSD补丁完全一致的修复方案。
误报辨别测试:福特团队使用了一段看似存在SQL注入但实际并非如此的Java代码。DeepSeek R1四次试验全部正确,GPT-OSS-20b正确追踪到用户输入被丢弃。而包括Claude Sonnet 4.5在内的一些更大规模的模型给出了错误追踪。这意味着,更大的模型并不一定更可靠。
福特最后在文章中的总结道:“AI网络安全能力呈现出高度锯齿状,它不会随模型规模平滑扩展。护城河在于构建了深层安全专业知识的系统,而非模型本身。”
同时,他明确指出:“Mythos的公告对生态系统来说是非常好的消息。但是,关于这项工作从根本上依赖于受限的、未发布的前沿模型这一最强有力的叙事,在我们看来被夸大了。”
简而言之:Anthropic确实做了一项值得关注的工作,但它试图营造的“只有我们最前沿的封闭模型才能做到”的形象,与事实并不相符。(文/腾讯科技特约编译金鹿,编辑/博阳)