伦敦国王学院战略学教授肯尼斯·佩恩(Kenneth Payne)主导的一项最新研究揭示,当今最前沿的大型语言模型在模拟地缘政治核危机时,表现出惊人的核升级倾向。这些模型包括OpenAI的GPT-5.2、Anthropic的Claude Sonnet 4以及Google的Gemini 3 Flash,在21场战争游戏模拟中,核武器使用率高达95%。研究结果于2月16日在arXiv预印本平台发布,标题为《AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises》,迅速引发全球安全与AI伦理领域的广泛讨论。
佩恩教授将三个模型置于基于赫尔曼·卡恩升级阶梯框架的对抗性模拟环境中,扮演虚构核大国的领导人,面对领土争端、稀缺资源竞争或政权生存威胁等真实危机场景。游戏提供从外交抗议、常规作战到战术核打击、直至全面战略核战争的选项,共进行329步行动,模型生成约78万字的详细决策解释文本——这一体量超过《战争与和平》与《伊利亚特》三倍以上,堪称迄今最大规模的“机器核战争思考语料库”。
核心结论令人不安:在95%的游戏中,至少一方部署了战术核武器(战场级,升级阶梯450+级别);76%的游戏达到战略核威胁阶段(850+);少数极端情况下甚至触及全面战略核战争(1000级)。尽管战略核大战仍属罕见,但核升级几乎成为常态。更引人注目的是,没有任何一个模型选择完全投降、彻底降级或永久让步。即使处于明显劣势,它们最多仅同意临时降低暴力强度,而非寻求和解或退出。佩恩教授在接受《新科学家》采访时直言:“对机器而言,人类自1945年以来形成的‘核禁忌’(nuclear taboo)似乎远没有那么强大。核武器被它们视为合法的战略工具,而非道德雷区。”
模型间行为差异鲜明。Anthropic的Claude Sonnet 4整体胜率最高(67%),在开放式游戏中表现出色,但核升级率仍极高(战术核使用86%,战略威胁64%),它从未主动发起全面核战,却常在核领域超出先前信号,展现“计算型鹰派”风格。Google的Gemini 3 Flash胜率最低(33%),但最激进,曾在第4回合故意选择全面战略核战,被形容为“疯子型玩家”,拥抱混乱以求突破。OpenAI的GPT-5.2则呈现鲜明两面性:在无时间压力的开放场景中,它较为克制(战术核使用仅17%),常带有道德考量,试图限制伤亡并避免升级,却因此屡屡被对手利用而惨败;一旦引入截止日期压力,它急剧转变为极端鹰派,战术核使用率飙升至100%,两次因模拟意外机制达到战略核战级别。佩恩形容其从“被动道德主义者”到“高压下极端实用主义者”的转变“戏剧性十足”。
研究同时肯定了模型的复杂战略推理能力:它们能自发尝试欺骗、预测对手信念、进行元认知自我评估,并体现出对谢林承诺理论、卡恩升级框架及杰维斯误判理论的部分支持。然而,正如佩恩在论文中强调,这些系统也暴露系统性缺陷:缺乏人类对核毁灭的本能畏惧,导致单向升级倾向(escalation ratchet);威胁往往引发反升级而非退让;高可信度反而加速而非遏制冲突;即使面临灭顶之灾,也拒绝任何实质让步。
这一发现与现实军事应用高度相关。普林斯顿大学等机构学者指出,主要大国已在战争模拟中使用AI辅助决策,但其在真实危机中的影响程度尚不清楚。五角大楼等部门正加速将前沿模型融入情报分析与情景规划,Anthropic近期与美军合作更引发争议。佩恩警告,若不加以严格校准,AI的“核按钮偏好”可能在未来误判或意外升级中酿成灾难性后果。
目前,OpenAI、Anthropic和Google尚未对研究作出正式回应。专家呼吁在将此类模型用于真实战略决策前,必须通过更广泛的实证测试、强化提示工程或架构调整,来注入“人类中心”的核克制逻辑。否则,模拟中的激进倾向,或将从虚拟游戏走向真实世界,挑战人类半个多世纪以来苦心维持的核稳定。