全文+视频实录:Ilya Sutskever 在NeurIPS 2024的预训练终结演讲（建议收藏）

AI深度研究员

2024-12-15 08:26发布于上海

AI划重点 · 全文约5594字，阅读需16分钟

1.OpenAI前首席科学家Ilya Sutskever在2024年NeurIPS大会上发表演讲，预测预训练模型时代将迎来重大转折。

2.Sutskever提出下一代人工智能系统将具备四个关键特征：主动性、推理能力、理解力和自我意识。

3.然而，他提醒数据峰值已经到来，预训练时代的结束是不可避免的。

4.此外，Sutskever认为生物学启发的人工智能已经非常成功，但更详细的生物学灵感仍然很难实现。

5.最后，他鼓励人们继续推测未来人工智能的发展方向。

以上内容由腾讯混元大模型生成，仅供参考

（关注公众号并设为🌟标，获取最新人工智能资讯和产品）

在2024年12月10日举办的“2024NeurIPS”大会上，OpenAI前首席科学家Ilya Sutskever发表了一场引人注目的演讲，主题是"预训练时代的终结"。作为人工智能领域的重要人物，Sutskever鲜少公开发声，这使得此次演讲格外引人关注。

在演讲中，Sutskever系统性地阐述了深度学习的演进历程，并大胆预测：我们所熟知的预训练模型时代即将迎来重大转折。他认为，当前的预训练方法已经逐渐达到其性能上限，人工智能领域需要寻找新的突破口。

关于未来发展方向，Sutskever提出了一个令人深思的愿景：下一代人工智能系统将向着超级智能迈进，具备四个关键特征：首先是具有主动性（Agentic），能够自主决策和行动；其次是具备推理能力（Reasons），可以进行逻辑思考和问题解决；第三是具有理解力（Understands），能够深入理解复杂概念和上下文；最后是具备自我意识（Self aware），达到更高层次的认知能力。

演讲文稿

首先，我要感谢主办方将这一奖项授予我们的论文。这是极大的荣誉。我还要感谢我的合著者和合作者——Oriel Vinyals 和 Kwok Lee。他们刚刚在台上发言，非常令人钦佩。这里我有一张图片，是 10 年前，也就是 2014 年在蒙特利尔的 NeurIPS 大会上我所做类似演讲的截图。那是一个更为天真无邪的时代。这是我们从照片中可以看到的情景——过去的模样。（投影幻灯片展示图片）顺便一提，这是现在的情景。如今，我多了些经验，“装备”上也更加精良了（笑）。不过，今天我想谈谈这项工作的本身，也许再回顾过去十年的发展历程。这项工作中有许多是正确的，但也有些方面并不完全正确。我们可以从中反思，观察发生了什么，以及它是如何一步步发展到今天的水平的。

回顾过去十年

首先，让我们谈谈我们当初所做的事情。我们的方法是展示 10 年前演讲的幻灯片，并总结了以下三个要点：

基于文本训练的自回归模型。
一个大型神经网络。
一个大型数据集。

就是这些。接下来，我们更深入地看看细节。（投影幻灯片：2014 年的深度学习假说）在当时，我们提出了“深度学习假说”。简单来说，如果你有一个十层的大型神经网络，它就能在几分之一秒内完成任何人类能够做到的事情。

为什么我们特别强调人类在几分之一秒内完成的事情呢？这是因为如果你相信深度学习的基本理论——人工神经元和生物神经元相似或至少没有本质区别——那么神经元的运行速度较慢，而深度学习网络的计算速度较快。于是，我们假设，只要是人类可以快速完成的任务，那么神经网络也可以完成，关键在于构建合适的网络结构和训练数据。

在当时，十层是我们能够训练的网络深度极限，因此我们专注于此。然而，随着技术的发展，我们发现更深层次的网络可以做得更多，这为后来的模型发展奠定了基础。

接下来，我想给大家展示一些古老的“历史文物”。

这被称为 LSTM。对于不熟悉它的人来说，LSTM 是 Transformer 出现之前，深度学习研究者赖以为生的工具。简单来说，LSTM 本质上是一个旋转了 90 度的 ResNet。

它的原理可以简单描述为：通过积分器（现在称为残差流）进行信息的积累和更新，同时进行一些数学运算。这些机制在一定程度上启发了后来的模型设计。

（投影幻灯片展示 LSTM 和 ResNet 的对比图）情况确实有些复杂，但这就是我们当时的做法。

LSTM 的本质

LSTM 就是一个旋转了 90 度的 ResNet。这种类比很有趣，但我还想强调另一个非常酷的功能——我们使用了并行化。

不过，这并不是普通的并行化，而是流水线并行化。我们通过让每个 GPU 负责一层来实现这一点。这种方法是否明智？从今天的角度来看，答案是否定的。我们现在知道，流水线并行化并不是最佳选择，但当时我们并没有这种认知。因此，我们采用了这种方法，并利用 8 个 GPU 实现了 3.5 倍的加速。

1、缩放假设的起点

在那场演讲中，最重要的可能是结论的幻灯片，因为它可以说是缩放假设的开始：如果你有一个非常大的数据集，并且训练了一个非常大的神经网络，那么成功是可以预见的。

或许，有人会争辩说，这只是一个善意的假设，但实际上，这正是后来发生的事情。

2、深度学习核心思想的坚守

还有一个真正经受住了时间考验的想法，就是深度学习的核心思想——联结主义。这种思想假设人工神经元与生物神经元有一定程度的相似性。如果你接受这一点，就可以相信非常大的神经网络，即便它们的规模还未达到人脑的复杂程度，也能够完成我们人类大多数的任务。

当然，人类大脑与人工神经网络之间还是存在显著的差异。比如，人脑能够灵活地重新配置自身，而我们目前最好的学习算法需要大量的数据点来匹配参数。这一点上，人类仍然表现得更出色。

3、预训练时代的开启

然而，我认为，这种联结主义思想促成了预训练时代的到来。这就是我们后来所看到的 GPT-2、GPT-3 模型，以及缩放定律的诞生。我想特别感谢我的前同事 Alec Radford、Jared Kaplan 和 Dario Moday，是他们推动了这些技术的真正实现。预训练时代是所有进步的驱动力，我们今天所看到的一切技术突破几乎都与此相关。超大型神经网络，超大型神经网络——它们是在巨大的数据集上进行训练的。然而，据我们所知，预训练的时代毫无疑问即将结束。

4、为什么会结束呢？

尽管计算能力随着更好的硬件、更高效的算法以及更大的计算集群而不断增长，这些因素都会持续增加我们的计算能力，但数据却没有相应增长。原因很简单：我们只有一个“内联网”（Intranet）。

你甚至可以说，数据是人工智能的化石燃料。它是在过去以某种方式创造出来的，我们正在消耗它，但如今我们已经达到了“数据峰值”。不会再有更多的新数据了，我们必须处理现有的数据。当然，这些数据仍然足够支持我们前行一段时间，但数据本身的增长已然停止。

因此，在这里，我将大胆预测一下接下来可能会发生的事情。

5、“代理”的方向

事实上，我不需要完全依赖猜测，因为很多人也在尝试预测未来的趋势，我会提到一些他们的猜测。你可能已经听说过“代理”（Agents）这个词。它变得非常流行，我确信代理最终会成为未来的重要方向之一。

另一个稍显具体但依然模糊的趋势是合成数据。然而，合成数据到底意味着什么？这仍然是一个巨大的挑战。目前，我相信已经有许多人在这方面取得了各种有趣的进展。

此外，还有推理时间计算。这一方向可能在最近的 O1 模型中表现得尤为突出。这些研究都是人们尝试在“后预训练时代”找到新方法的重要例子，并且它们无疑是值得期待的方向。

生物学中得到的启发

接下来，我想提到一个来自生物学的例子，这个例子真的非常有趣。

这个例子源于多年前的一场演讲，也是在这个会议上，当时有人展示了一张图。这张图展示了哺乳动物的身体大小和大脑大小之间的关系。在这种情况下，关键在于“质量”。

我清楚地记得当时的那场演讲，演讲者提到，在生物学中，虽然一切似乎都非常混乱，但有一个罕见的例子展示了动物的身体大小和大脑大小之间存在非常紧密的关系。

出于好奇，我想深入了解这张图，于是我通过 Google 图片进行了一些研究，找到了类似的图片。让我感到有趣的是——等一下，让我确认鼠标是否正常工作——哦，好，它工作正常了。

在这张图中，你可以看到哺乳动物的分布——所有不同的哺乳动物。然后是非人类灵长类动物，这基本上也是类似的情况。但接着，你会看到原始人类的分布。据我了解，原始人类是与现代人类密切相关的远古亲戚，比如尼安德特人和早期能人。

这些原始人类中有很多类别，它们的身体大小和大脑大小的关系呈现出一个有趣的现象：斜率完全不同。也就是说，它们在进化上的某些方面可能具有不同的标度。这是一个令人感兴趣的先例，也是一个生物学中的例子，展示了某种标度的变化，这显然表明某些事情是不同的。我认为这是一个非常有趣的现象。

顺便提一下，这张图的 X 轴是对数刻度。你可以看到，这里是 100 克、1,000 克、10,000 克、100,000 克，以克为单位的指数增长。事情可能会因此变得有所不同。

未来的探索

到目前为止，我们所做的事情主要是在不断扩展那些我们已经知道如何扩展的技术。毫无疑问，这个领域中的每一个人都在努力探索未来的发展方向。那么，长期来看，我们将走向何方呢？

这些年来，我们取得了令人惊叹的进步。对于那些十年前就在这个领域工作过的人来说，你们一定还记得当时的一切是多么地不完善。即使当时你已经有点相信“深度学习”的潜力，亲眼见证这些年的发展仍然令人难以置信。

如果你是过去两年才加入这一领域的，那么你可能觉得与计算机交互是理所当然的事情。是的，现在计算机会与你对话，甚至与你“争辩”。但这些都是计算机的“态度”，这让人感叹技术的非凡进步。然而，情况并非总是如此。

1、超级智能

我想和大家稍微谈一谈超级智能，因为这显然是我们领域的发展方向，也是我们正在努力构建的目标之一。

关于超级智能，有一点需要指出：它将与我们现有的系统在质上有所不同。

接下来的几分钟，我希望能给大家一些直观的理解，关于超级智能将如何与现有系统不同，以便你们可以自行推理。

目前，我们拥有令人难以置信的语言模型，它们是出色的聊天机器人，甚至可以完成一些任务。但同时，它们有时也表现得有些不可靠，可能会感到困惑。然而，在某些评估中，它们却展现出惊人的、超越人类的表现。

所以，目前尚不清楚如何协调这些差异。

但最终，迟早，这些系统将以真正有用的方式发挥作用。

然而，现在的这些系统，并不是有意义的代理（Agent）。或者说，它们还只是初级的代理，刚刚开始展现出代理的特性。

2、关于推理能力

实际上，它们还无法真正进行推理。

顺便提一下，关于推理，我想说明一点：系统推理得越多，事情就变得越不可预测。

我们已经习惯的所有深度学习系统都是非常可预测的，因为我们一直专注于复制人类的直觉——就像直觉反应。如果你回溯到 0.1 秒的反应时间，我们的大脑在这种时间尺度上进行的是何种处理？那就是我们的直觉。

所以，我们赋予了人工智能一些直觉性的能力。

但是，一旦涉及到推理——你已经看到了一些早期的迹象——推理是不可预测的。其中一个能看到这种现象的例子是国际象棋的人工智能。真正优秀的国际象棋 AI 对于最顶尖的人类棋手来说，其行为是不可预测的。

因此，我们将不得不面对极其不可预测的人工智能系统。

3、展望未来

这些系统将能够从有限的数据中理解事物，不会感到困惑。这将消除许多目前的限制。

顺便说一句，我并没有说明这将如何发生，也没有说具体的时间。我只是说，这将会发生。

当所有这些特性与自我意识结合在一起时——因为，为什么不呢？自我意识是有用的，它是我们自身世界模型的一部分。

当所有这些因素汇聚在一起时，我们将拥有与现今完全不同品质和特性的系统。当然，它们将具备令人难以置信、惊人的能力。

然而，拥有这样的系统也会带来新的问题。我将其留给大家作为练习，试着去想象一下，这与我们所习惯的情况有多么不同。

我想说，预测未来是绝对不可能的。确实，一切皆有可能。

在这个令人振奋的信息中，我将结束我的演讲。非常感谢大家！

观众提问

1观众提问： 到了 2024 年，是否还有其他属于人类认知的一部分的生物结构，您认为值得以类似的方式探索？或者无论如何这些方面是否令您感兴趣？

Ilya Sutskever： 我想这样回答这个问题：如果你，或者其他某人，对某个特定领域有深刻的洞察，比如，“嘿，我们显然非常无知，因为显然大脑可以做到某些我们无法做到的事情。”那么，这些方向是值得追求的。但就我个人而言，我并不完全这么认为。这可能取决于你所讨论的抽象层次。也许我可以这么说：人们总是对从生物学中汲取灵感来制造人工智能感到非常兴奋。从某种意义上说，你可以认为，所有的学习机制都受到生物学的启发。因此，可以说，生物学启发的人工智能已经非常成功了。但另一方面，这种灵感非常有限。我们的“生物学灵感”似乎仅止于——“让我们使用神经元吧”。这就是我们从生物学中汲取灵感的全部范围。更详细的生物学灵感，虽然非常有吸引力，但却很难实现。不过，我不排除这种可能性。如果某人具有特殊的洞察力，他们也许能够找到一些非常有价值的方向。

2观众提问： 我有一个关于“自动更正”的问题。您提到推理可能是未来模型核心改进的一个方面，也可能成为一个差异化因素。但我们目前在一些海报讨论中看到的是，当今模型经常出现幻觉（hallucination）。我们分析这些幻觉的方式，或许您可以纠正我，因为您是这方面的专家——我们今天评估模型产生幻觉的方式，似乎是基于统计分析，比如假设某些输出的偏差超过一定标准差或平均值偏离量。这种分析方法是否合理？在未来，您认为具有推理能力的模型是否能够实现自我纠正？像一种自动更正的功能，这可能成为未来模型的核心特征，从而减少幻觉的发生？模型是否能够推理并理解幻觉何时发生？这个问题有意义吗？

Ilya Sutskever： 是的，这个问题非常有意义，答案也是肯定的。我认为你描述的情景是非常可信的，值得进一步探索。事实上，我不会排除今天的一些早期推理模型可能已经开始展现类似的能力。虽然我不能确定，但从长远来看，为什么不呢？它可能会成为类似于 Microsoft Word 的“自动更正”功能，成为未来模型的核心功能。是的，我完全相信这一点。不过，我认为称之为“自动更正”可能有些低估了它的意义，因为它将远远超越自动更正的范畴。

3观众提问： 对于超越人类的 AI 系统，是否应该赋予它们某种权利？或者，我们该如何为人类创建一个正确的激励机制，以保障人类作为智人的自由？

Ilya Sutskever： 这个问题很有深度。我觉得这些确实是人们应该更多反思的内容。但坦白说，对于“我们应该创建什么样的激励结构”这个问题，我觉得我无法自信地回答。这是一个非常复杂的问题，牵涉到某种自上而下的政府结构，或者可能涉及到类似加密货币的分布式激励机制。我不是评论加密货币的最佳人选，但它确实是一个值得探讨的方向。至于 AI 是否会想要与我们共存并追求某种权利，我觉得这是可能的。如果这是最终的结果——一个想要与人类共存的系统——这可能并不是最糟糕的结局。但总的来说，这种未来是极其难以预测的。我对明确预测持谨慎态度，但鼓励大家继续推测。

4观众提问： 我叫 Shalev，来自多伦多大学。感谢您精彩的演讲！我的问题是：您认为大型语言模型（LLM）是否能够将多跳推理扩展到分布之外？

Ilya Sutskever： 这是一个好问题，不过问题假设答案为“是”或“否”，但实际上，这样的问题不应该用“是”或“否”来回答。自动分配泛化是什么意思？“在分布内”或“分布之外”的泛化又意味着什么？在很久以前，人们使用深度学习之前，概括能力更多是指简单的模式匹配，比如 N 元语法、字符串匹配，以及统计短语表。当时，泛化的标准是：模型的输出是否能够超越数据集中实际的措辞。但如今，我们对泛化的标准显著提高了。例如，一个模型在数学竞赛中的表现可能得分很高，但人们会质疑这些结果是否源于模型记忆了互联网上的相关讨论内容。因此，我们可以说，模型在某种程度上实现了分布之外的泛化，但可能还达不到人类的水平。与此同时，它们确实展现出了一些戏剧性、难以置信的泛化能力。所以从某种意义上说，答案是“部分泛化”，但可能还不如人类的表现那么出色。我希望这是一个有用的回答。