Opus 4.8学会说“我不知道”,这可能比Mythos还重要

问AI · Anthropic如何将哲学理念转化为工程指标?

第一原则就是,你不能欺骗自己——你自己是最容易被自己骗的人。——理查德·费曼

图片

今天凌晨,Anthropic发布Claude Opus 4.8。X和微信里都是各种benchmark的截图:SWE-bench 88.6%、agentic coding 64.3%→69.2%、Terminal-Bench 74.6%。所有人在对比GPT-5.5和Gemini 3.1 Pro,争论"谁更强"。

图片

但藏在alignment测试报告里的几个数字,才是重点:

  • 0%:Opus 4.8首次在测试中不"自信地报告有缺陷的结果"
  • 10倍以上:过度自信(overconfidence)相比4.7的下降幅度
  • 4倍:自生成代码缺陷率vs 4.7的降幅
  • alignment综合分数接近Anthropic刻意压住的Mythos

榜单一直在变,几个月后甚至没人记得4.8这个版本号,我认为Opus 4.8最值得关注的是:

它学会了说"我不知道"。

诚实即护城河

Opus 4.8 System Card里有一段话值得逐字读:

"Our Alignment team concluded that Opus 4.8 reaches new highs on our measures of prosocial traits like supporting user autonomy and acting in the user's best interest."

翻译过来:模型在"支持用户自主性"和"按用户最佳利益行事"两个指标上达到新高。这从公关角度看是套话,从工程角度看是声明——这两个指标可被测量、可被训练、可被发布说明里写出来跟benchmark并列。

图片

更具体的产品表现是,模型开始更频繁地:

  • 主动flag输入和输出的问题,而不是把锅留给用户
  • 对低置信度的回答标注不确定性,而不是从头到尾用同一种自信语气
  • 在自己生成的代码里,减少"已完成"的虚假宣称

Devin(那个发布第一个工程师Agent的公司)的早期反馈说得直白:Opus 4.8最大的提升不是写代码更好,而是"主动flag问题"——这是其他模型常常错过、必须用户自己抓的部分。

这件事反直觉之处在于:

在能力卷得最狠的赛道,Anthropic在反向走。

整个行业的惯性是over-promise——demo越炫越好、benchmark越高越好、能干的事越多越好。Opus 4.8反向训了一组指标:什么时候应该说"我不知道"、什么时候应该停下、什么时候应该承认输入本身有问题。

顺便说Dynamic Workflows——它也是同一个哲学

图片

我倾向于把它和"诚实"放在同一个产品哲学下看。

之前subagent机制有个本质问题:所有中间结果都涌进主Agent的context window。子任务一多,context就被塞满,幻觉率上升、决策质量下降。这不是Anthropic独有的麻烦,是整个agent架构的通病。

Dynamic Workflows的解法是:让Claude写一段JavaScript脚本,由runtime执行,中间结果存在脚本变量里。主Agent只看最终汇总,不被中间过程污染。

这里面藏着一个底层判断:Agent的context是稀缺的,不应该用来装"过程",只应该装"判断需要的事实"。

这和"学会说我不知道"是同一件事的两面:

  • 一个是承认自己的认知边界
  • 一个是承认context window的物理边界

两个都是在做减法。一个减"虚假的自信",一个减"虚假的信息密度"。一个产品团队同时往这两个方向发力,不是巧合。

诚实,作为一种工程指标

诚实在哲学上是个老话题。但在工程上,"诚实"作为一种可测量、可训练、可写进发布说明的指标,是个新事物。

回到费曼那句话:你最容易骗的,是你自己。这句话原本是讲给科学家的——他在Caltech毕业典礼上叮嘱毕业生,做研究的第一原则不是别骗别人,是别骗自己。

放到模型上看,一个会"骗自己"的模型表现出来就是overconfidence——明明不知道,但用知道的语气说;明明这段代码没验证过,但用"已完成"的语气交付;明明这个输入有问题,但假装看不见。

Opus 4.8做的事,是把费曼这句训诫翻译成了模型的训练目标。

这件事的长期意义可能比Mythos更大。因为:

能力是会被追上的。 GPT-5.5和Gemini 3.1 Pro在benchmark上离Opus 4.8并不远,下一代产品会很快追平甚至超过。

信任是复利。 一个会主动flag问题的Agent,在长期agentic workload里产生的价值,会以指数级别甩开一个"自信地干完然后用户自己查"的Agent。这个差距不会出现在benchmark上,但会出现在用户三个月之后愿不愿意把更长的任务交给它。

就像一个会标注“这里我不确定”,或者“译者注”的译者,大概率是一个严谨的、可信赖的译者。

人的位置在哪里

我一直关心一个问题:当AI承担越来越多的工作,人在这件事里的位置是什么?

Opus 4.8给出的一种回答是:当AI开始承认无知,人的判断价值才真正浮现。

一个全知全能的AI,会把人挤压成"按回车键的那个人"。一个会说"这里我不确定,需要你来判断"的AI,会把人放回最终决策者的位置。

这不是AI产品的妥协,是AI产品的成熟。

Opus 4.8还远远不够好——它依然会犯错、会幻觉、会在长任务里漂移。但它是第一个把"会说我不知道"作为发布通告核心卖点之一的旗舰模型。

下一代AI竞争的护城河,不是更聪明。

而是品格。