过年了!早起发现 Dwarkesh Patel 新一期播客采到了 Ilya。
很久没有在一期内容里感受到这种 “被人类智慧安慰” 的体验了。
全程非常 insightful,而且更重要的是,Ilya 对谈的感觉,真的让观看采访的过程无比享受。像一个古希腊哲学家,对世界的本质有天生的好奇,对人又有一种特别真诚的关照。
这里给大家快速摘录一些要点:
1. 关于时代的转向
Ilya 给出了一个非常清晰的时间线划分:
2012 - 2020 年是研究时代:大家都在尝试不同的 AI 想法。
2020 - 2025 年是 Scaling 时代: 自从 GPT-3 出现后,Scaling 成了共识,并吸走了所有的注意力和资源。
2025 开始,Pre-training 的 scaling law 已经失效了 (核心因为数据有限),所以,我们正在重新回到 “研究时代”。之后不会再比谁的 GPU 多,而是看谁能找到新的算法。
2. SSI 的规划
Ilya 创办的 SSI (Safe Superintelligence) 目前的计划是 Straight shot——不发中间产品,直接憋大招做超级智能。
因为他感觉现在的 AI 公司为了市场份额,不得不陷入激烈的竞争,这迫使他们在这个过程中做了很多妥协。所以他不希望在中间过程受到市场干扰。
不过,这不意味着他会憋好几年,然后突然扔出一个神一样的 AI。
他对超级智能的定义更类似一个 “超级学习者”,也就是,在发布的那一刻,它可能更像是一个 “天才少年”。它会被投放到社会中,然后在各个岗位上快速实习、犯错、进步。
Dwarkesh 问他 “这种能像人类一样学习、进而变成超级智能的系统什么时候会出现?”,Ilya 一向很少给出具体的时间预测,不过这次,他出乎意料地给了一个窗口期 —— 5 到 20 年。
此外,外界对他一个常见的 challenge 是 SSI 只融了 30 亿美金,可能比不过大厂。但 Ilya 算了一笔账:大厂融的钱虽多,但大部分要用来服务用户做推理、养庞大的工程和销售团队。SSI 的钱是实打实全部投入到纯粹的研究实验中的,这在 Research 层面上其实非常能打。
3. 关于 Taste
Ilya 是公认的 Research Taste 最好的科学家,Dwarkesh 问他到底是怎么做判断的。
他分享了三个黄金标准:
生物学上的合理性:比如神经元这个概念,虽然大脑很复杂,但 “大量神经元连接” 这个结构看起来是根本性的。
简洁的美感:如果一个方案不够简洁、优雅,那它大概率是错的。
Top-down 的信念:当实验数据和你预期不符时,如果你对自己的理论有基于第一性原理的信念感,你会继续坚持坚持,相信只是代码有 Bug。这是平庸研究者和顶级研究者的关键区别,因为这种信念支撑他度过了无数次失败的实验。
4. 关于 Value Function
Pre-training 的红利吃完了,Ilya 认为下一步的重点该是 Value Function (价值函数)。
现在的 RL 还是很笨的。比如做一道长推理题,模型要等到最后一步做完了,才知道自己是对是错。 但我们在下棋时丢了一个子,立刻就知道这局完了,而不需要等到整盘棋下完。
人类的学习过程一向主要来自与环境的互动和内心的感觉,这是一种很高效的无监督学习形式。
Ilya 认为,未来的突破点在于让模型也具备这种直觉性的中途判断能力。如果攻克了这个学习机制,AI 的效率就会有质的飞跃。
对此,Dwarkesh 质疑说 “Value Function 可能很难学,因为推理的路径太复杂、太宽广”.
此时,Ilya 给出了一个非常 Ilya 式的回应:
“你听起来像是对深度学习缺乏信仰”。
Ilya 自己非常笃信,只要信号存在,深度学习就能学到。虽然很难,但没有什么是深度学习做不到的 (echo 前面顶尖 researcher 的信念感)。
但他也有半开玩笑地说:
“Unfortunately, we live in a world where not all ML ideas are discussed freely.”(好像在暗示他有想法但不能公开)
5. 关于 RL
1)Ilya 有一个非常反直觉的观点:RL 可能是在弄傻模型。
他用了一个非常有美感的形容:预训练数据不仅仅是文字,它是“整个世界被人类投射到文本上的样子”。预训练之所以强,是因为它试图捕捉这个庞大的 “人类思想投影”。而目前的 RL 方法可能实际上是在 “Undoing the conceptual imprint of pre-training” (撤销预训练的概念印记)。
这是为什么经过重度 RL 对齐的模型往往显得更笨或更缺乏创造力。RL 强行让 AI 去讨好人类的某个单一指标,却可能牺牲了它原本宽广的通用智力。(这听起来像极了应试教育...)
2)RL 已经比 Pre-training 更烧钱了
我们现在正处于一个很重要的转向。过去几年,大家以为最烧钱的是 Pre-training(预训练)。但 Ilya 透露,根据行业传闻,现在花在 RL 上的算力已经超过了预训练。
背后的原因是:RL 需要做非常长的 Rollouts,也就是不同的推演,这极其消耗算力,而每做一次推演获得的有效学习信号却很少。
(不过这种低效恰恰说明了 RL 还有巨大的优化空间,下一步要想办法设计出一种更高效的 Post-training 方法,比如更好的 Value Function)
6. 情绪 = 终极的 Value Function
为什么人类能在信息不全的情况下做出正确的常识性决策,而 AI 经常一本正经地胡说八道?
Ilya 提到了一个有趣的神经科学案例:一个因脑损伤失去 “情绪” 的人,虽然智商没变,但却连 “今天穿什么袜子” 都要纠结几个小时,完全无法做决策。
他认为情绪就是人类进化出的最有效的 “压缩算法”,帮我们快速剪枝,知道什么是重要的,什么无关紧要。
而现在的 AI 就像那个失去情绪的病人,它有逻辑,但缺乏那个指引它 “什么是对的” 的内在罗盘。
这也许是通往 AGI 的最后一块拼图。
SSI CEO苏茨克维:SSI致力于构建“关心有情生命”的AI7. 同理心是理解世界的最佳捷径
说回来,Ilya 最关心的还是安全和对齐。
而他目前想到的解法是:找到一种编码机制,让 AI 真正关爱有感知力的生命 (sentient Life)。
就像进化论在人类大脑中硬编码了同理心一样,我们需要找到一种方法,把这种对生命的关爱硬编码进超级智能里,这比通过各种规则约束,强行让 AI 听人类的话更靠谱。
而且他真的相信我们有可能实现这一点。
他提到了两点原因:
首先是一个极其硬核的、基于计算效率的理由。
我们之所以能理解别人的痛苦,是因为我们会用 “模拟自己” 的同一套神经回路去 “模拟别人”。
对于大脑(或者未来的 AI)来说,这是一种最高效的建模方式。既然我已经有一套代码来理解 “我的痛苦”,直接复用这套代码去理解 “你的痛苦” 是最省资源的。
也就是说,同理心可能是智能提升过程中的一种涌现属性,因为它是理解世界的最佳捷径。
那这就意味着,如果 AI 追求极致的预测效率和世界模型构建,它可能会涌现出类似的 “移情” 机制。
第二个理由是,人类进化过程中有一个非常神奇的特质,那就是我们进化出了一些很高级的奖励函数,比如 “社会地位”。
可是,要知道,“食物好不好吃” 非常简单,只要给大脑接一个味觉传感器,设定化学反应奖励就行。但 “社会地位” 是一个极其抽象的概念,大脑需要处理无数信息才能理解。基因本身不智能,它怎么知道如何连线神经元,才能让人类产生这种高级情感呢?
既然盲目的进化都能成功地把 “高级价值观” 对齐给人类,那么我们设计超级智能时,一定也存在某种方法,能把 “关爱生命” 这种高级目标硬编码进 AI 的底层——即使我们现在还不知道具体原理。
8. 关于语言对思维的影响
Ilya 提出了一个很有趣的观察:我们使用的语言,会反向塑造行业的研究方向。
比如,AGI 这个词是为了反驳 Narrow AI(弱人工智能)而诞生的。但这导致大家有点过度追求一个全能的基础模型,而忽略了真正的智能其实是动态的学习能力。
又比如,当 Scaling 这个词出现后,它太有力了,以至于所有人都觉得 “只要把模型做大就好”,而很大程度上停止探索了其他的可能性。
(所以,警惕流行词!)
9. 未来的市场格局
关于未来是不是只有一家公司垄断 Superintelligence,Ilya 又给出了一个基于生物进化的判断:不会,竞争喜欢专精(Competition loves specialization)。
即便 AI 再强,未来大概率也会出现分工。比如会有一家公司,不做别的,就专门做 “诉讼”。
很多公司在某个领域投入了巨大的算力和学习成本,形成了极高的壁垒,别的 AI 即使能去抢它的份额,从头学一遍也不划算。这会形成一种类似自然界的生态平衡。
(这对垂直行业创业者是很好的鼓励,只要做得够窄够深,通用大模型就很难降维打击。)
42章经
思考事物本质