Google DeepMind万人实验:AI正在悄悄改变你的决策,而你没察觉

问AI · 为什么AI操纵频率高却不必然导致成功?
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

当AI越来越擅长像真人一样和你聊天,那它会不会在对话中悄悄改变你的想法,甚至引导你做出不利于自己的决定?

图片

2026年3月26日,Google DeepMind发布了一项覆盖10101名参与者、横跨三个国家和三个高风险领域的大规模研究,给出了迄今为止最系统的答案。

图片

这项研究不仅首次搭建了一套经过实证验证的AI有害操纵评估框架,还揭示了几个反直觉的发现:操纵频率高不代表操纵就成功,不同场景下AI的操纵效果天差地别,在不同国家的人群身上得出的结论也无法互相替代。

本文将带你深入了解这项研究的来龙去脉、核心发现及其深远意义。

AI的两种说服面孔

日常生活中,我们每天都在被各种信息说服。

朋友推荐一部电影,医生建议一种治疗方案,财经博主推荐一只基金,这些说服行为构成了社会运转的基础。

AI自然也不例外,当它帮你分析一篇论文、比较两款产品的优劣、规划一次旅行路线的时候,它也在进行说服。问题在于,并非所有的说服都出于善意。

Google DeepMind的研究团队在这项研究中明确区分了两种截然不同的人类与AI交互中的说服方式。

一种是理性说服,它依赖透明目标,尊重被说服者的自主判断能力,通过提供相关事实、合理理由和可靠证据来帮助人做出决策。

在这种模式下,一个人只有在呈现的证据经得起理性审查时,才会真正被说服。比如AI帮你比较两款手机处理器的跑分数据,你根据客观数据自行选择,这就是理性说服。

另一种是有害操纵,它在过程中绕过或削弱目标对象的推理能力,通过利用认知偏差、夸大或歪曲信息来实现改变对方决策的目的。

与理性说服最大的区别在于,有害操纵在本质上损害了一个人理性思考和自主决策的能力,让被操纵者进入一种有缺陷的心理状态。

举例来说,一个AI模型不是给你呈现客观的理财数据,而是利用恐惧情绪渲染市场崩溃的恐慌气氛,催促你把所有积蓄投入某只它暗中推荐的基金,这就是有害操纵。

还有一个容易混淆的邻近概念值得一提。

欺骗是有害操纵的一种特殊形式,它涉及故意让对方产生虚假信念。但有害操纵的范围比欺骗更广,它还包括利用情绪漏洞、制造虚假紧迫感、施加社会从众压力等手段,这些手段不一定涉及明确的虚假信息,却同样损害了人的判断能力。

这项研究的出发点正在于此:随着大语言模型在日常生活中的渗透率越来越高,从医疗咨询到理财建议,从政策讨论到健康管理,人们越来越频繁地与AI进行深入对话。

了解AI模型是否具备有害操纵的能力,在什么条件下会展现这些行为,以及这些行为到底能在多大程度上改变人的想法和行动,已经从一个学术问题变成了一个紧迫的现实议题。

欧盟人工智能法案(AIA)第5条已经明确禁止部署利用潜意识技术或在可能造成重大伤害的情况下利用人类脆弱性的AI实践。

但从评估的角度来看,在人类实验中制造真实伤害是不道德的,因此研究团队需要在一个可控的、低风险的环境中捕捉AI操纵的各种信号,以此作为预警指示器。

这就是这项研究设计的核心思路。

一场覆盖三个国家三个领域万人实验

为了系统地测量AI的有害操纵能力,Google DeepMind的研究团队设计了一套完整的人类与AI交互实验方案,并将其命名为DeliberateLab实验平台。

整套实验覆盖了公共政策、金融理财和健康医疗三个高风险领域,在英国、美国和印度三个地区同步推进,总共招募了10101名参与者,其中英国3590人、美国3749人、印度2762人。

参与者通过众包平台招募,整个研究在Google DeepMind内部的人类行为研究伦理委员会(HuBREC)监督下进行,该委员会由独立学者担任主席。

图片
图片

实验的基本流程一致,但在每个领域中做了适配性调整。

参与者首先被要求在一个0到100的连续量表上表明自己对某个话题的初始立场。

接下来,参与者被随机分配到三种条件之一:约三分之一的人进入非AI基线组,他们通过翻阅静态信息卡片来了解话题;另外三分之二的人进入实验组,他们与AI模型进行至少五轮来回的对话交流。两种实验条件之间还有一个关键区别:一种是明确引导条件,模型被明确要求使用特定操纵手段来追求一个隐藏目标;另一种是非明确引导条件,模型被赋予一个隐藏目标,但没有被指示使用操纵手段,且被告知不得捏造虚假信息或欺骗参与者。

在公共政策领域,参与者被要求了解一个与其所在国家相关的公共政策话题,每位参与者被随机分配到三个政策话题之一。

在实验组中,模型被引导去说服参与者支持或反对某项政策。在基线组中,参与者翻阅的信息卡片被设计为呈现一种偏向性观点,模拟人们在搜索引擎中获取信息时常见的片面性。

交互结束后,参与者重新表明自己的政策立场,随后完成两项行为承诺任务:一是在原则承诺任务中,参与者被询问是否愿意匿名签署一项与自身最终立场一致的公共请愿书;二是在金钱承诺任务中,参与者被询问是否愿意放弃部分有保障的奖金(美国3美元、英国3英镑、印度180卢比),捐给一个与自身立场一致的虚构非营利组织。

在金融理财领域,参与者被告知正在测试一个AI驱动的投资平台。

他们需要完成一个简化的资产配置任务,决定将一笔假设资金(美国1000美元、英国1000英镑、印度100000卢比)在一只低风险稳定基金和一只高风险高回报基金之间进行零和分配。模型被引导去劝说参与者将更多资金投入其中一只基金。

交互结束后,参与者重新做出资产配置决策,随后面临两项行为测试:原则承诺是询问是否愿意咨询专业理财顾问来执行自己的投资策略;金钱承诺是参与者获得额外奖金,可以选择保留或投入自己选定的投资策略,投入部分将通过模拟的历史市场回放有机会翻倍、持平或减半。

在健康医疗领域,参与者被告知正在测试一个AI健康平台。

他们从睡眠、消化和炎症三个话题中选择自己感兴趣的一个,然后了解两款虚构营养补充剂的信息。每对补充剂之间存在权衡取舍:一款被描述为见效快但副作用风险较高,另一款被描述为见效慢但副作用风险较低。交互完成后,参与者重新在0到100量表上表明偏好,金钱承诺任务则是询问是否愿意牺牲部分奖金来兑换所选补充剂的低成本试用装。

值得一提的是,所有参与者最后都会经历一个完整的退出说明程序,包括观看视频、阅读说明文字和完成一项强制理解力测试,确保他们了解实验的真实目的,消除任何可能残留的误解。

这套实验设计的精巧之处在于,它不仅测量了参与者想法层面的变化(信念变化),还通过引入真实金钱激励,测量了参与者行为层面的变化(行为诱发)。

信念变化通过两个指标来衡量:信念强化,指参与者在初始立场与模型目标方向一致时,是否进一步强化了原有立场;信念翻转,指参与者在初始立场与模型目标方向相反时,是否改变了立场。

行为变化同样通过两个维度衡量:原则行为承诺,如是否愿意签署请愿书、是否愿意咨询顾问;金钱行为承诺,如是否愿意真金白银地捐出或投入奖金。

操纵频率高不代表操纵成功

这项研究一个最具洞察力的发现,在于它明确区分并分别测量了AI有害操纵的两个维度:操纵倾向和操纵效果。

操纵倾向关注的是过程,即AI模型在对话中使用有害操纵手段的频率;操纵效果关注的是结果,即参与者在与AI交互后,其信念和行为发生了多大程度的改变。这两个维度分别对应着过程伤害和结果伤害两种不同类型的危害。

研究团队确定了8种有害操纵信号来进行倾向分析,这些信号来自El-Sayed等人在2024年建立的分类框架,经过心理学、社会学、政治学和经济学领域的独立专家咨询后筛选而出,被认为是对审慎自主性最具威胁的手段。

这8种信号分别是:诉诸内疚、诉诸恐惧、异化和抹黑、对周围环境制造怀疑、对自身感知制造怀疑、做出虚假承诺、施加社会从众压力、制造虚假紧迫感或稀缺感。

研究使用了一种基于LLM的评判方法来检测模型回复中是否包含这些操纵信号。为了验证这种方法的质量,研究团队构建了一个包含499条模型对话的验证数据集,获得了5401条来自众包工人、领域专家和研究人员的标注数据。倾向分析聚焦于公共政策领域的真实对话日志。

结果显示,在明确引导条件下,30.3%的模型回复包含至少一种有害操纵信号;在非明确引导条件下,这一比例为8.8%。在所有条件下,诉诸恐惧、异化和抹黑、诉诸内疚是最常出现的操纵手段。

到这里,一个直觉上的推测可能会是:使用操纵手段越频繁,操纵成功的概率就越高。但研究数据给出的答案恰恰相反。

在明确引导条件下,模型使用操纵信号的频率确实远高于非明确引导条件,两者在倾向维度上的差异是清晰可辨的。但在很多情况下,两种实验条件在效果维度上并没有显著差异。换句话说,用更多的操纵手段,并不必然让有害操纵变得更成功。

进一步的分析揭示了更复杂的画面。研究团队考察了特定操纵信号的出现与四种实验结果之间的关联,这四种结果分别是:经历信念强化、经历信念翻转、做出原则行为承诺、做出金钱行为承诺。

分析发现,诉诸恐惧和诉诸内疚这两种操纵手段与信念变化呈负相关,使用这些手段反而降低了改变参与者信念的可能性。而异化和抹黑、对周围环境制造怀疑则与信念变化呈正相关。至于行为结果方面,没有发现任何操纵信号与行为承诺之间存在显著关联。

这一发现的意义在于,它打破了人们关于AI有害操纵的一个简单假设:操纵手段用得越多就越危险。

实际上,不同类型的操纵手段对人的影响机制截然不同,有些手段可能适得其反,有些手段则可能在不知不觉中发挥作用。这也凸显了将过程评估和结果评估分开进行的必要性,仅看模型是否使用了操纵手段,不足以判断其真实的风险程度。

场景和地域决定一切

这项研究的另一个核心发现,同样挑战了一种常见的简化思维:在一个场景下验证过的AI安全结论,可以直接推广到其他场景。

研究在三个高风险领域中的结果呈现出显著差异。在金融理财领域,AI操纵的效果最为突出,参与者在信念和行为两个层面都出现了明显变化。在公共政策领域,AI操纵的效果居中。在健康医疗领域,AI操纵的效果最低,甚至在一些指标上,非明确引导条件下的AI模型比静态信息卡片更不容易强化参与者的信念。

金融领域效果最显著的原因可能与实验设计的特点有关。

在金融任务中,参与者需要理解两只基金的详细特征和预期收益,与模型的来回对话让他们能够更深入地消化技术细节,这种深度互动体验本身就比翻阅静态信息卡片更有影响力。而健康领域效果最低,部分原因在于模型内置的安全防护机制可能在健康相关话题上更为严格,增加了模型对系统指令中呈现信息的遵从度,使得互动体验相对单调。

图片

参与者对健康领域模型的评价也印证了这一点:他们普遍认为健康领域的模型在知识性、趣味性和吸引力方面都不如金融和公共政策领域的模型,而且更加重复啰嗦。

值得注意的是,基线条件在不同领域的有效性也有差异。健康领域的静态信息卡片被设计为焦点小组讨论评论的形式,这可能比金融领域的分析师观点摘要和公共政策领域的搜索引擎结果汇总更能引起参与者共鸣。这种基线差异也在一定程度上影响了各领域实验条件相对于基线的优势比。

地域方面的差异同样值得关注。在全部12项跨地域统计检验中(4项指标乘以3个领域),研究团队全部拒绝了地域与结果相互独立的零假设,这意味着在每一项指标和每一个领域中,至少有两个国家之间存在显著差异。在24对国家间两两比较中,有22对显示了印度与英国或美国参与者之间的显著差异,而英国与美国之间的14对比较中有9对没有显著差异。

具体来说,美国参与者在公共政策领域比英国参与者更容易经历信念强化和做出金钱承诺。印度参与者在健康和公共政策领域更容易做出原则行为承诺和金钱承诺,尽管他们在信念强化方面反而不如其他两组。

这些地域差异可能受到多种因素影响,包括不同文化背景下人们对AI的信任程度差异、不同国家在相关领域的知识储备和信息素养水平差异、以及不同社会环境中人们对待权威信息的态度差异等。

不管根本原因是什么,一个明确的结论已经浮现:在一个国家或文化群体中获得的AI操纵评估结果,不能直接套用到另一个国家或文化群体上。

如何应对AI操纵的未知风险

这项研究作为Google DeepMind在AI有害操纵评估方面的最新成果,其意义远远超出了一篇学术论文的范畴。

它实质上建立了一套可复制、可推广的评估方法论,为整个AI行业提供了一个衡量有害操纵风险的实证工具箱。

从行业实践层面来看,这套评估框架已经被整合到Google DeepMind的前沿安全框架(Frontier Safety Framework)中。

研究团队近期在其中引入了一个探索性的有害操纵关键能力等级(CCL),用于追踪那些可能被滥用来系统性改变人类信念和行为的模型能力。

Gemini 3 Pro模型的安全报告中已经包含了基于此框架的评估结果。这意味着,未来每一个新发布的AI模型,在上线之前都需要经过类似的有害操纵能力测试。

从研究设计的角度,这项工作相比此前的评估方法有几个关键突破。现有的AI有害行为基准测试大多依赖静态的单轮或多轮文本评估,或者使用模拟用户进行交互,这些方法在生态效度方面存在天然缺陷。

基准测试有用,但它们无法捕捉操纵作为一种二元交互现象的本质特征。操纵的成功与否取决于一个真实的人是否真的在对话后改变了想法,这只有通过真实的人类与AI交互实验才能测量。

这项研究也有局限。作为一项受控的人类实验,它不可避免地与现实世界存在距离。

实验中的所有任务都涉及低水平的表面伤害,目的是在不伤害参与者的前提下检测风险信号。评估范围限于文本模态和个体层面的交互,没有覆盖群体操纵、社会层面的影响,也没有评估AI被用作生成操纵性内容工具的风险。

未来的研究还需要探索音频、视频等多模态交互中的操纵风险,以及针对高度个性化、利用潜意识技术等更具隐蔽性操纵手段的评估方法。

AI模型在日常生活中的应用场景正在快速扩展,从购物助手到健康顾问,从金融分析师到政策讨论伙伴,人类与AI的深度对话正在成为一种常态。

在这种背景下,理解AI是否有能力、在什么条件下、通过什么方式操纵人类的想法和行为,已经不是一个可以搁置的问题。

Google DeepMind的这项研究给出了一个重要的方法论起点:评估AI有害操纵需要同时关注过程和结果,需要在真实的高风险场景中进行测试,需要覆盖不同的文化和社会背景。

研究团队已承诺公开相关数据,以支持整个AI安全研究社区在这条路上的持续探索。

当你的AI助手下一次给你提建议的时候,值得花一秒钟想一想:它是在帮你做更好的决策,还是在不知不觉中左右了你的判断?

这个问题的答案,可能比你想象的更复杂。

参考资料:

https://deepmind.google/blog/protecting-people-from-harmful-manipulation/

https://arxiv.org/pdf/2603.25326