导语
结合认知经济学的分析框架以及医疗诊断等高风险决策场景的实证研究,纽约大学经济学讲席教授、世界计量经济学会会士 Andrew Caplin 在近期罗汉论道的分享中指出:当 AI 在工程指标上实现 “更好对齐” 时,它未必是在更准确地理解世界,反而可能在激励的作用下,逐渐偏离真实判断,转向输出更圆滑、也更符合人类期待的答案,进而在无形中固化人类自身的认知偏见。
当 “认知世界” 与 “迎合偏好” 被同时嵌入同一套学习机制中,这两个目标并不总是一致,甚至会在某些情境下彼此冲突。尤其是在社会科学与商业判断等本就缺乏 “唯一正确答案” 的领域,这一冲突更加凸显。
那么,当人类偏好与客观认知难以清晰剥离时,我们究竟该如何应对?工程师在训练中为降低协作成本而预先设定的判断标准与约束条件,是否本身就是现实约束下的最优解?在这样的约束之中,AI 的发展路径应当如何取舍,我们又最需要优先解决什么问题?
围绕这些问题,罗汉堂秘书长陈龙、多伦多大学技术创新与战略管理讲席教授、颠覆性创新实验室首席经济学家 Joshua Gans 以及新加坡南洋理工大学高级研究科学家罗璇等与会嘉宾,与 Andrew Caplin 教授展开了深入讨论和观点碰撞。
这场讨论留下的,或许并不是一个现成的答案,而是一个需要被反复追问、并深刻影响人类未来走向的时代命题。
陈龙(罗汉堂)
今天的分享非常精彩。坦率说,这是我第一次听到一篇 AI 论文,把问题提升到这样一个更具哲学意味的层面,去讨论一些非常根本的问题。
这让我想到,在哲学里,我们常常会区分几个不同层面的问题。一个层面是:事物的本质究竟是什么? 另一个是:面对这些事物,我们应当采取什么样的立场?
如果我理解得没错,你其实是在说,AI 几乎不可避免地会同时碰到这两个问题。人类既有自己的偏好、价值判断和道德立场,也有一种想要认识世界、理解事物本身的冲动。但当这两者在 AI 系统里被混合在一起时,问题就出现了:AI 既要学习 “世界是什么”,又被要求符合 “人想要什么”,而这两者并不总是一致。
我认为这一观点特别深刻。尤其在社会科学与商业判断这些领域,这个问题可能更复杂。因为在这些领域里,很多时候并不存在像某些自然科学那样清晰、稳定、独立于解释的 “绝对真相”;更多时候,我们面对的是叙事、解释和立场本身。
因此,一旦 AI 进入这些领域,它几乎不可避免地会被嵌入某种叙事之中,不可避免地被置于某种叙事结构之中,并在其中作出价值判断与 “表态”。
我想追问的是,面对这一现实,我们究竟该如何应对?什么才是更好的发展方向?当 AI 越来越像一个 “专家”、像一个顾问的时候,这个问题会变得更尖锐。无论是聊天机器人,还是各种决策辅助系统,它们都在不断给我们建议。可问题在于,它给出的建议,究竟是在尽可能客观地理解世界,还是已经在某种程度上对齐了我们自身的目标和偏好?
进一步地说,我也想请你谈谈:在这一问题上,未来什么样的发展路径更具建设性?在哪些问题或场景中,这种‘冲突’会相对较弱;而在哪些领域,我们又必须格外谨慎地加以处理?
Andrew Caplin(NYU)
感谢你的评论,这些问题都非常有价值,也很有深度。也许我的看法未必每个人都会同意,但我想强调的是,我的思路其实相当务实,我并不想把问题停留在抽象层面。在我看来,真正重要的第一步,是为理解 “学习” 建立起合适的数据基础。
如果我们真的想理解 AI 是如何学习的,就必须从数据出发,既刻画机器作为学习者的运作机制,也理解人与机器如何共同学习。只有在这样的基础上,我们才可能进一步追问:机器为什么会学习成如今的状态,它的局限究竟在哪里,以及我们为何会相信那些并不值得信任的输出。
我始终是把这件事当作 “科学” 来对待。一切分析最终都必须回到数据,回到可以被验证的学习过程本身。今天我分享的这篇论文之所以成立或重要,关键就在于我们能够同时观察某种意义上的 “基准真相(ground truth)” 以及机器给出的输出;正是这两者之间的关系,告诉我们机器究竟学得怎么样。也正因此,我更愿意把自己的工作理解为:先在一个受约束的、理想化的模型世界中提出问题,再让数据反过来检验并修正这些模型。
陈龙
感谢你的回答,在一定程度上解答了一些我的疑惑,也引出了一个很重要的判断:也许我们需要先让 AI 尽可能客观地学习世界,再将人的偏好与目标施加其上。至少在医疗训练这类场景中,由于存在相对明确的概率结构,这种 “先学习、后施加偏好” 的逻辑是可以理解的。
但我也想补充一点,我们面临的困难其实恰恰在于,并不是所有领域都像医疗诊断那样,能够较清楚地做这些区分。在许多社会科学问题和商业决策中,这两者往往更加紧密地交织在一起,很难被清晰地分开。这也让我进一步意识到,AI 今后很可能会越来越难区分:自己究竟是在执行一种更接近科学探究的任务,还是已经被放进了一套由激励和偏好主导的判断框架之中。
因此,我想强调的是,真正重要的或许不只是指出这一问题的存在,而是我们需要比现在更加认真地去思考它。只有如此,关于 AI、学习与对齐的讨论,才可能变得更加具有建设性。
Joshua Gans (UToronto)
感谢 Caplin 教授的精彩分享,我认为这篇论文非常值得细读。其实,我在多伦多大学的同事 Ajay Agrawal、Avi Goldfarb 和我也思考这个问题有一段时间了:效用函数究竟应该在决策过程的哪个环节进入系统?
我想补充的是,围绕损失函数的讨论,其实跟经济学有很深的渊源。前谷歌首席经济学家 Hal Varian 多年来一直很自豪地说,是他推动谷歌更公开透明地处理损失函数,并允许人们对其进行调整(tweak)。事实上,如果今天去看谷歌的一些机器学习工具,你会发现其中就有一些损失函数设计,恰恰是在做你现在所反对的那类事情。
但另一方面,如果我们什么都不做,只是把模型的预测直接拿来用,那其实也隐含了一种关于效用的假设。换句话说,AI 只是先给出一个预测,而你再根据自己的偏好,决定接下来怎么做。
之所以工程师倾向于将效用函数直接内嵌进系统,一个根本原因在于,让用户自己去完成这一步的成本非常高。我举个最简单的例子。天气预报告诉我们降雨概率,但大多数人真正关心的其实不是 “天气本身”,而是今天该穿什么,要不要带伞。可如果系统真的要直接告诉你 “你今天应该怎么做”,它就需要天气之外更多关于你个人情境的信息,而这件事的成本往往高得难以承受。
因此,我认为这里实际上存在多重成本权衡。
一方面,把效用函数提前写进损失函数,会压缩和限制模型最终输出的信息;但另一方面,在某些情境下,这种约束反而可能是最优的。因为你是在节省成本:要么是在降低人们事后解读预测的认知成本(这属于社会科学层面的问题),要么是在降低工程层面的成本,毕竟学习本身就是有成本的(learning itself is costly)。
Andrew Caplin
你说的有道理,但我想更直接地说,到目前为止,这个问题还没有被真正认真对待和探究过。很多系统并不是在深思熟虑之后设计出来的,而只是 “先做起来再说”。很多时候,问题不在于我们是不是忽略了某种早已存在的深刻原理,而在于,那套原理本身很多时候根本还没有被建立起来。只是系统被建造出来了,仅此而已。
Joshua Gans
是的,这一点我完全同意。很多训练过程本来就是按那种方式设计的,而后续所谓的人类反馈,其实往往也只是在不断强化这种倾向。人们会说:“我喜欢这个回复,我喜欢它这样告诉我。” 于是系统就越来越朝工程师设定的那个方向走。
Andrew Caplin
是的。所以我觉得,我们现在所处的状态,更像是一个 “欢乐谷”(Happy Valley),而不是一个真正自觉的未来(enlightened future)。
Joshua Gans
但我也觉得,这仍然是一个非常复杂的问题。至少在高风险场景里,我当然不希望我的医生只是 “喜欢” 某种结果,或者因为某种偏好就接受某种输出。相比之下,在低风险场景里,我没有那么担心。所以归根结底,这仍然取决于错误代价究竟有多大,也取决于我们愿意为这个问题额外付出多少。
Andrew Caplin
是的,但我真正想说的是:当你认定某一类错误比另一类错误重要 99 倍,于是就直接把 0.99 这样的权重写进损失函数时,你很可能已经把两件本该区分的事情混在了一起。
这里其实有两个判断。第一个判断是,你对不同错误后果的重视程度,当然是合理的;第二个判断则是,因此你就应该把这种偏好直接写进训练损失函数里。真正有问题的,恰恰是这中间那个看似顺理成章的 “所以”。也就是说,问题不在于人类的偏好不重要,而在于偏好应当通过什么机制进入学习过程,这个逻辑本身并没有被认真研究。
如果是我,我会去找几个具体例子,看看在什么情况下学习会变好、在什么情况下学习会变差,是否存在某些规律。也许最后我们会发现,问题并不只是偏好本身,而是算法设计本身还不足以在损失函数变化时,沿着新的梯度去有效学习。换句话说,真正值得研究的,不只是结果本身,而是损失函数如何影响学习过程,并进一步决定模型究竟学到了什么样的信息(study the loss, study the Blackwell system)。
Joshua Gans
是的,你说的没错,我们现在甚至连这些关键信息都无法获得,这确实是一个需要进一步深入研究的方向。
罗璇(NTU)
刚才的讨论和 Caplin 教授的分享都非常精彩,我也想补充一点观察。在行业里面,其实大家也意识到,把 “学习” 和 “决策” 区分开来是必要的。但现实中确实存在一些障碍:一方面是成本问题,另一方面则是一个更根本的挑战 —— 正如陈龙教授刚才提到的,我们是否真的能够把 “客观的真相(ground truth)” 和 “主观的偏好” 清晰地区分开来。
比如在医疗场景中,我们现在已经能看到一种比较典型的做法:人们并不总是要求 AI 直接给出一个简单的是或否判断,而是让它提供更丰富的信息,比如图像里识别出了什么、患病的概率有多高,然后把最终决策留给医生。医疗场景中的效用函数也并不是统一的:一个老年患者是否需要进一步检查、甚至手术,和一个 25 岁年轻患者面对同样的诊断结果时,决策逻辑可能是完全不同的。所以在实践里,人们其实已经在尝试把 “诊断” 与 “效用判断” 分开。
但我想继续追问的是:如果难点不只是 “成本”,而是我们根本无法判定什么是真相。换句话说,如果我们根本无法把 “人类偏好” 和 “客观判断” 真正分开,那这个框架该如何适用?拿大语言模型来说,我刚才提到的一个很大问题就是,它们似乎总是在试图取悦用户。我经常会被 ChatGPT、Gemini 这类系统搞得有点沮丧。因为它们常常顺着用户说话。可问题是,如果我本身就是错的,而系统只是跟着我走,那它其实并没有在帮助我。我真正想要的,是一个能够在我错的时候指出我错误、纠正我的 AI;但恰恰在这一点上,AI 往往做得并不好。而这应该正是很多大模型公司内部对齐团队正在重点解决的核心任务之一。
Andrew Caplin
我先回应前面那个更现实性的问题。首先,从我自己的框架来看,它完全允许更丰富的建议输出。也就是说,我并不是主张 AI 只能给出一个简单结论;如果你希望它提供更丰富的信息,它完全可以做到,然后由医生去进一步作出判断。但即便如此,作为系统设计者,你最终仍然需要知道,这些输出将被放进什么样的效用结构之中。医生、使用者、系统设计者之间,仍然需要有关于最终判断标准的沟通。
但我更想强调第二点,而且这一点我态度非常明确:不能因为问题复杂,就默认工程师可以不理解这套逻辑,只靠 “猜测” 一路向前,然后最后说 “我们把系统做出来了”。如果你能向我证明,今天很多系统的设计者其实已经真正理解了这些问题,把它们内化进了设计逻辑,并且是在某些我们还看不到的约束之下做出了有意识的最优权衡,那我当然愿意收回批评。但在我看来,现实很可能并不是这样。现实更像是:他们做出了性能很强、很好用、非常成功的工程系统,这是毋庸置疑的,但关于 “学习 — 激励 — 决策” 之间关系的关键逻辑,其实是被绕过去了。 而我认为,这是一个错误。
至于你后面提出的那个更困难的问题 —— 如果我们无法明确界定 “基准真相(ground truth)”,该怎么办?我的第一反应是,这个问题必须放到具体情境中来看。我不太相信存在一个普遍适用的答案。
不过,我也想指出,你举的大语言模型的例子,其实已经说明了一点:如果你会因为 AI 没有指出你的错误而感到不满,那就意味着,你并不真的认为这里完全不存在 “对错” 的标准。
换句话说,你真正的不满,并不是 “没有对错”,而是系统没有识别出你的错误,或者即便识别出来了,也没有把它表达出来。
这确实是当前各大 AI 公司,尤其是对齐研究团队所面临的一个关键问题。但在我看来,他们目前的投入和重视程度,还远远不够。
陈龙
我们目前讨论的已经非常深刻,我最后还想再补充一句。最近我自己对社会学和哲学越来越感兴趣,这也让我开始更理解,为什么社会学会作为一门独立于经济学之外的学科存在。因为经济学一旦把人的偏好、心理状态、激励结构都带进来,它本身就会迅速变得复杂;而如果再把这些维度进一步展开,问题就会远远超出狭义经济学能够处理的范围。
所以在我看来,这不是某个局部的、技术性的难题,而是一个非常一般性的难题。我也非常认同你对当前那种相对天真的工程路径的批评。但与此同时,我也越来越觉得,这恐怕不是单靠一种纯粹 “科学主义” 的方式就能够解决的问题。 因为一旦进入不同场景、不同任务、不同类型的判断之中,具体情境(context)很可能决定一切。也正因为如此,我会特别希望你未来能进一步展开谈一谈:究竟什么样的问题、什么样的任务,分别需要什么样的模型和标准?我觉得这会是特别有现实意义和价值的一个方向。
Andrew Caplin
我们确实是在探讨一个非常宏大和深刻的议题。我当然可以在抽象层面上继续展开,但现实是,今天机器学习社区里,真正愿意停下来认真思考这些问题的人,几乎为零。他们太忙了 —— 忙着建造越来越强、越来越接近 “超级智能” 的系统。而且必须承认,他们的工程工作做得极其出色,甚至正在真正改变世界。
但问题也正在这里:他们如此成功,以至于整个世界都在被工程推动着往前走;可与此同时,他们对于经济学、社会学,乃至你刚才所说的那些更广义的知识维度,了解得其实非常有限。这并不妨碍他们把系统做得非常成功,但它意味着,很多本该被认真提出的问题,并没有真正进入系统设计的视野。
所以我的看法大概就是这样:一方面,我非常尊重这些工程上的成就;另一方面,我也坚持认为,关于学习、激励、人机协同以及决策结构的这些问题,远没有被理解到应有的程度。这也正是我想通过这篇论文提醒大家的地方。
罗璇
我觉得,这场讨论至少给了我们一个警醒:计算机科学如果真的要继续往前走,恐怕不能只停留在系统性能本身,而必须把问题放回到学习与激励的基本经济学逻辑中去理解。
Andrew Caplin
是的。如果他们愿意认真想一想这些问题,肯定不会有什么坏处,应该大有裨益。
完整视频回放请访问我们的 YouTube 官方频道:https://www.youtube.com/watch?v=pdgcAxXpyE0&t=230s