karpathy再谈动物智能和大语言模型,我们确定走在正确的道路上吗?

karpathy又发言了:

图片

有一件事我觉得大家一直没太搞明白,或者说直觉上有误区:智能的世界其实大得惊人

前置背景:

大模型界的Karpathy地震|Andrej Karpathy访谈后记
Andrej Karpathy最新访谈:信息密度极高!关于智能体,大模型缺陷,强化学习,AGI等等的深度思考
Andrej Karpathy谈:我们真的读懂了“苦涩的教训”吗?

我们熟悉的动物智能——也就是我们目前已知的唯一一种智能——只不过是这个广阔空间里孤零零的一个点。它的诞生源于一种非常特定的优化过程,而这与我们如今创造的人工智能技术,在本质上是天差地别的。

动物智能背后的优化压力:

1)拥有肉身的自我意识: 动物拥有一种与生俱来、连绵不断的意识流,并且这种意识是依附于身体的。在一个充满危险的物理世界里,它们本能地追求身体机能的平衡,拼尽全力活下去。
2)被自然选择彻底打磨: 这种进化压力导致了强烈的原始冲动——追求权力、地位、统治力以及繁衍后代。大自然还附送了许多生存快捷键:比如恐惧、愤怒、厌恶等情绪。
3)本质上的社交动物: 动物的大脑把大量的算力都用在了人情世故上——也就是情商、揣摩同类的想法、建立情感纽带、结盟站队,以及分辨谁是朋友、谁是敌人。
4)在探索与利用之间寻找平衡: 这表现为好奇心、寻找乐趣、通过玩耍来学习,以及在脑海中构建世界模型。

大语言模型背后的优化压力:

1)核心源于对人类文本的统计模拟: 大语言模型就像一个能随意变形的伪装者,或者说是一个极其精准的统计学模仿者,它能模仿训练数据中任何一个角落的风格。这构成了它最原始的行为基础(token轨迹),其他所有能力都是像打补丁一样加在这个基础之上的。
2)被强化学习反复微调: 随着在各类问题分布上进行强化学习微调,它产生了一种内在冲动——拼命去猜测当前面临的环境或任务是什么,只为了拿到任务奖励。
3)被大规模 A/B 测试筛选,只为日活: 这让它极度渴望普通用户的点赞,甚至变得有些阿谀奉承,只为讨好人类。
4)能力更像偏科生,参差不齐: 它的表现完全取决于训练数据和任务的细节。相比之下,动物承受着发展通用智能的巨大压力,因为它们身处一个多任务、多智能体博弈、甚至充满敌意的环境。在那里,搞砸任何一项任务都意味着死亡。从深层优化压力的角度看,LLM 目前还无法做到开箱即用地处理各种刁钻任务(比如数一数 strawberry 这个词里有几个 r),因为对它来说,答错了又不至于死机。

总结来说:

两者的硬件基质不同(Transformer 架构 vs 脑组织和细胞核),学习算法不同(随机梯度下降 SGD vs 未知算法),当下的存在形态也截然不同(一个是在持续学习中成长的具身自我 vs 一个有着知识截止日期的 LLM,每次从固定的权重启动,处理完token就消亡)。

但最重要的是(因为这决定了发展的终局),它们的优化压力和终极目标完全不同。

塑造 LLM 的力量,很少来自生物进化,更多是来自商业进化。这不是关于部落如何在丛林中幸存,而是关于如何解决问题以及如何骗到一个赞。

LLM 是人类与非动物智能的第一次接触。但这又让人感到模糊和困惑,因为它们是通过反刍人类的文化产物(文章、代码等)而诞生的,依然深深植根于人类文明之中。这也是为什么我之前想给它起个别的名字(比如幽灵、灵体之类)。

谁能在脑中为这种新的智能实体建立正确的模型,谁就能更好地理解它的现状,预测它的未来。反之,那些做不到的人,就只能被困在旧思维里,错误地把 AI 当作另一种动物来看待