《自然》：AI 与人类水平的智能有多接近

人机与认知实验室

2025-01-02 00:11科技领域创作者

全文5544字，阅读约需16分钟，帮我划重点

划重点

01OpenAI推出了最新的大型语言模型o1，声称其工作方式更接近人的思维方式。

02然而，研究人员表示，尽管o1具有广泛的能力，但目前的技术仍不足以自行获得通用人工智能(AGI)。

03AGI的争论引发了关于机器需要多长时间才能完成人类大脑可以处理的所有认知任务的讨论。

04除此之外，研究人员还在探索如何构建有效的世界模型和集成反馈循环的AI系统。

05最后，专家表示，尽管有可能实现AGI，但它的到来可能还需要几年到至少十年不等。

以上内容由腾讯混元大模型生成，仅供参考

OpenAI 的 o1 等大型语言模型使关于实现通用人工智能（AGI）的辩论激化了。但他们不太可能独自达到这一里程碑。

·阿尼尔·阿南塔斯瓦米

OpenAI 最新的人工智能（AI）系统于 9 月推出，并做出了大胆的承诺。聊天机器人 ChatGPT 背后的公司展示了 o1——其最新的大型语言模型（LLM）套件——具有“更高水平的 AI 能力”。总部位于加利福尼亚州旧金山的 OpenAI 声称，与以前的 LLM 相比，o1 的工作方式更接近人的思维方式。

该版本为一场酝酿了几十年的辩论注入了新的燃料：机器需要多长时间才能能够完成人类大脑可以处理的所有认知任务，包括从一项任务推广到另一项任务、抽象推理、规划和选择调查和学习世界的哪些方面？

这种“通用人工智能”（AGI）可以解决棘手的问题，包括气候变化、流行病以及癌症、阿尔茨海默病和其他疾病的治疗方法。但如此巨大的力量也会带来不确定性，并给人类带来风险。“坏事的发生可能是因为人工智能的滥用或我们失去了对它的控制，”加拿大蒙特利尔大学的深度学习研究员 Yoshua Bengio 说。

过去几年 LLM 的革命引发了人们的猜测，即 AGI 可能已经非常接近了。但一些研究人员表示，考虑到 LLM 的构建和训练方式，它们不足以自行获得 AGI。“仍然缺少一些部分，”Bengio 说。

显而易见的是，关于 AGI 的问题，现在的技术比以往任何时候都更加接近。“在我一生中的大部分时间里，我认为谈论 AGI 的人都是骗子，”坦佩亚利桑那州立大学的计算机科学家 Subbarao Kambhampati 说。“现在，当然，每个人都在谈论它。你不能说每个人都是个坏蛋。

为什么 AGI 争论发生了变化

人工智能这个词在 2007 年左右开始成为热词，当时它在人工智能研究人员 Ben Goertzel 和 Cassio Pennachin 编辑的一本同名书中被提及。它的确切含义仍然难以捉摸，但它广义上指的是具有类似人类推理和泛化能力的 AI 系统。撇开模糊的定义不谈，在 AI 历史的大部分时间里，很明显我们还没有达到 AGI。以 AlphaGo，这是由 Google DeepMind 创建的 AI 程序，用于玩棋盘游戏围棋。它在比赛中击败了世界上最好的人类玩家——但它的超人品质很狭窄，因为这就是它所能做的。

LLM 的新功能从根本上改变了格局。与人类大脑一样，LLM 具有广泛的能力，这导致一些研究人员认真考虑某种形式的 AGI 可能正在来临，甚至已经在这里。

当你考虑到研究人员只部分了解 LLM 是如何实现它的时候，这种能力的广度尤其令人吃惊。LLM 是一种神经网络，一种松散地受到大脑启发的机器学习模型;该网络由分层排列的人工神经元或计算单元组成，具有表示神经元之间连接强度的可调参数。在训练过程中，最强大的 LLM（例如 o1、Claude（由旧金山的 Anthropic 构建）和 Google 的 Gemini）依赖于一种称为下一个token预测的方法，在该方法中，模型被反复提供文本样本，这些样本已被切成称为token的块。这些token可以是整个单词，也可以只是一组字符。序列中的最后一个token被隐藏或“屏蔽”，并要求模型对其进行预测。然后，训练算法将预测与掩码进行token比较，并调整模型的参数，使其下次能够做出更好的预测。

该过程会继续进行 — 通常使用数十亿个语言片段、科学文本和编程代码 — 直到模型能够可靠地预测被掩盖的token。到这个阶段，模型参数已经捕获了训练数据的统计结构，以及其中包含的知识。然后固定参数，当给定不一定存在于其训练数据中的新查询或 “提示” 时，模型使用它们来预测新token，这一过程称为推理。

使用一种称为 transformer 的神经网络架构使 LLM 大大超过了以前的成就。transformer 允许模型了解某些token对其他token具有特别大的影响，即使它们在文本样本中相距甚远。这允许 LLM 以似乎模仿人类的方式解析语言——例如，区分这句话中“bank”一词的两种含义：“当河岸泛滥时，水损坏了银行的 ATM，导致无法取款。”

事实证明，这种方法在各种环境中都非常成功，包括生成计算机程序来解决用自然语言描述的问题、总结学术文章和回答数学问题。

在此过程中，其他新功能也出现了，尤其是随着 LLM 规模的增加，这增加了 AGI 也可能在 LLM 变得足够大时出现的可能性。一个例子是思维链（CoT）提示。这包括向 LLM 展示如何将问题分解为更小的步骤来解决问题的示例，或者简单地要求 LLM 逐步解决问题。CoT 提示可以引导 LLM 正确回答以前让他们困惑的问题。但是这个过程在小型 LLM 中效果不佳。

LLM 的限制

据 OpenAI 称，CoT 提示已集成到 o1 的运作中，并且是该模型实力的基础。Francois Chollet 是加利福尼亚州山景城 Google 的 AI 研究员，并于 11 月离职创办了一家新公司，他认为该模型包含一个 CoT 生成器，该生成器为用户查询创建大量 CoT 提示，以及从选项中选择良好提示的机制。在训练过程中，o1 不仅要预测下一个标记，还要为给定的查询选择最佳的 CoT 提示。据 OpenAI 称，CoT 推理的添加解释了为什么 o1-preview（o1 的高级版本）在国际数学奥林匹克竞赛（一项面向高中生的著名数学竞赛）的资格考试中正确解决了 83% 的问题。相比之下，该公司之前最强大的 LLM GPT-13o 的得分仅为 4%。

但是，尽管如此复杂，o1 也有其局限性，并不构成 AGI，Kambhampati 和 Chollet 说。例如，在需要规划的任务上，Kambhampati 的团队已经证明，尽管 o1 在需要多达 16 个规划步骤的任务上表现出色，但当步骤数增加到 20 到 40 个之间时，其性能会迅速下降. Chollet 在用抽象推理和泛化测试挑战 o1-preview 时看到了类似的局限性，他设计了该测试来衡量 AGI 的进展。测试采用视觉拼图的形式。解决它们需要查看示例以推断出一个抽象规则，并使用它来解决类似谜题的新实例，这是人类相对容易做到的事情。

Chollet 说，LLM 无论规模大小，在解决需要重新组合所学知识以解决新任务的问题方面的能力都是有限的。“LLM 无法真正适应新奇事物，因为他们基本上没有能力利用他们的知识，然后对这些知识进行相当复杂的动态重组以适应新的环境。”

LLM 可以提供 AGI 吗？

那么，LLM 会提供 AGI 吗？对他们有利的一点是，底层 transformer 架构可以处理和查找除文本之外的其他类型的信息（例如图像和音频）中的统计模式，前提是有一种方法可以适当地标记这些数据。在纽约市纽约大学研究机器学习的 Andrew Wilson 和他的同事表明，这可能是因为不同类型的数据都有一个共同的特征：此类数据集具有较低的“柯尔莫哥洛夫复杂度”，定义为创建它们所需的最短计算机程序的长度. 研究人员还表明，Transformer非常适合学习 Kolmogorov 复杂度较低的数据中的模式，并且这种适用性会随着模型的大小而增加。Transformer 能够对各种可能性进行建模，从而增加训练算法发现问题适当解决方案的机会，并且这种 “表现力” 随着大小的增加而增加。Wilson 说，这些是“我们实现普遍学习真正需要的一些要素”。尽管 Wilson 认为 AGI 目前遥不可及，但他表示，使用 transformer 架构的 LLM 和其他 AI 系统具有类似 AGI 行为的一些关键特性。

然而，也有迹象表明，基于 transformer 的 LLM 有局限性。首先，用于训练模型的数据正在耗尽。旧金山一家研究人工智能趋势的研究所 Epoch AI 的研究人员估计用于训练的现有公开文本数据库存可能会在 2026 年至 2032 年之间用完。还有迹象表明，LLM 随着规模的增长而获得的收益并不像以前那样大，尽管目前尚不清楚这是否与数据中的新颖性降低有关，因为现在已经使用了太多数据，或者其他原因。后者对 LLM 来说是个坏兆头。

伦敦 Google DeepMind 的研究副总裁 Raia Hadsell 提出了另一个问题。强大的基于 transformer 的 LLM 经过训练可以预测下一个token，但她认为，这种单一的关注点太有限，无法提供 AGI。她说，构建模型以一次性或大块生成解决方案可以使我们更接近 AGI。可以帮助构建此类模型的算法已经在一些现有的非 LLM 系统中发挥作用，例如 OpenAI 的 DALL-E，它可以生成逼真的、有时是迷幻的图像以响应自然语言中的描述。但他们缺乏 LLM 的广泛功能套件。

构建我的世界模型

对发展到 AGI 需要哪些突破，直觉地认为来自神经科学家。他们认为，我们的智力是大脑能够构建“世界模型”的结果，即我们周围环境的代表。这可以用来想象不同的行动方案并预测它们的后果，从而用于计划和推理。它还可用于通过模拟不同的场景，将在一个领域学到的技能推广到新任务中。

一些报告声称有证据表明 LLM 中存在基本的世界模型。在一项研究中，剑桥麻省理工学院的研究人员 Wes Gurnee 和 Max Tegmark 声称，一个广泛使用的开源 LLM 系列在对包含这些地方信息的数据集进行训练时，开发了世界、美国和纽约市的内部表示，尽管其他研究人员在 X 上指出（以前称为 Twitter）的 S Mc 表示，没有证据表明 LLM 使用世界模型进行模拟或学习因果关系。在另一项研究中剑桥哈佛大学的计算机科学家 Kenneth Li 和他的同事报告了证据表明，一个小型 LLM 根据棋盘游戏黑白棋玩家的棋步成绩单进行了训练，学会了在内部表示棋盘的状态，并使用它来正确预测下一个合法棋步。

然而，其他结果表明，当今 AI 系统学习的世界模型可能不可靠。在一项这样的研究中哈佛大学的计算机科学家 Keyon Vafa 和他的同事使用纽约市出租车期间转弯的庞大数据集来训练一个基于 transformer 的模型来预测序列中的下一个转弯，它几乎做到了 100% 准确。

通过检查模型生成的转弯，研究人员能够证明它已经构建了一个内部映射来得出答案。但作者写道，这张地图与曼哈顿几乎没有相似之处（参见“人工智能的不可能的街道”），“包含具有不可能的物理方向的街道和其他街道上方的立交桥”。“尽管该模型在某些导航任务中表现良好，但它在处理不连贯的地图时表现良好，”Vafa 说。当研究人员调整测试数据以包括训练数据中不存在的不可预见的弯路时，它无法预测下一个转弯，这表明它无法适应新情况。

反馈的重要性

位于加利福尼亚州山景城的 Google DeepMind 的 AGI 研究团队成员 Dileep George 说，当今的 LLM 缺乏的一个重要功能是内部反馈。人脑充满了反馈连接，允许信息在神经元层之间双向流动。这使得信息能够从感觉系统流向大脑的更高层，以创建反映我们环境的世界模型。这也意味着来自世界模型的信息可以回荡并指导进一步感官信息的获取。例如，这种双向过程会导致感知，其中大脑使用世界模型来推断感觉输入的可能原因。它们还支持规划，使用世界模型来模拟不同的行动方案。

但当前的 LLM 只能以附加的方式使用反馈。在 o1 的情况下，似乎在起作用的内部 CoT 提示——其中生成提示以帮助回答查询并在 LLM 产生最终答案之前反馈给 LLM——是一种反馈连接形式。但是，从 Chollet 的 o1 检验中可以看出，这并不能确保无懈可击的抽象推理。

包括 Kambhampati 在内的研究人员还尝试在 LLM 上添加外部模块（称为验证器）。这些检查由 LLM 在特定上下文中生成的答案，例如用于创建可行的旅行计划，如果答案不符合标准，则要求 LLM 重新运行查询. Kambhampati 的团队表明，在外部验证员的帮助下，LLM 能够比普通 LLM 更好地制定旅行计划。问题在于研究人员必须为每项任务设计定制的验证器。“没有通用的验证器，”Kambhampati 说。相比之下，使用这种方法的 AGI 系统可能需要构建自己的验证器来适应出现的情况，就像人类可以使用抽象规则来确保他们正确推理一样，即使是对于新任务也是如此。

利用这些想法来帮助生产新的 AI 系统的努力还处于起步阶段。例如，Bengio 正在探索如何创建与当今基于 transformer 的 LLM 具有不同架构的 AI 系统。其中一种使用他所谓的生成流网络，将允许单个 AI 系统学习如何同时构建世界模型以及使用它们进行推理和规划所需的模块。

LLM 遇到的另一个大障碍是他们是数据消耗者。伦敦大学学院的理论神经科学家卡尔·弗里斯顿（Karl Friston）建议，未来的系统可以更高效地决定需要从环境中采样多少数据来构建世界模型并做出合理的预测，而不是简单地摄取它们收到的所有数据。Friston 说，这将代表 AGI 可能需要的一种代理或自主形式。“你看不到那种真实的能动性，比如大型语言模型或生成式 AI，”他说。“如果你有任何类型的智能人工制品可以在某种程度上进行选择，我认为你正在向 AGI 迈出重要一步，”他补充道。

能够构建有效世界模型和集成反馈循环的 AI 系统也可能较少依赖外部数据，因为它们可以通过运行内部模拟、提出反事实并使用这些数据来理解、推理和规划来生成自己的数据。事实上，在 2018 年，当时在东京 Google Brain 的研究人员 David Ha 和瑞士卢加诺-维加内洛 Dalle Molle 人工智能研究所的 Jürgen Schmidhuber 报告说构建一个神经网络，可以有效地构建人工环境的世界模型，然后使用它来训练 AI 与虚拟汽车比赛。

如果您认为具有这种自主性水平的 AI 系统听起来很可怕，那么您并不孤单。除了研究如何构建 AGI 之外，Bengio 还倡导将安全纳入 AI 系统的设计和监管。他认为，研究必须集中在训练能够保证自身行为安全的模型上——例如，通过建立计算模型违反某些特定安全约束的概率并在概率过高时拒绝行动的机制。此外，政府需要确保安全使用。“我们需要一个民主程序，确保个人、公司甚至军队使用 AI 并以对公众安全的方式开发 AI，”他说。

那么，是否有可能实现 AGI？计算机科学家表示，没有理由不这么认为。“没有理论障碍，”George 说。新墨西哥州圣达菲研究所（Santa Fe Institute）的计算机科学家梅兰妮·米切尔（Melanie Mitchell）对此表示赞同。“人类和其他一些动物证明了你可以到达那里的原则，”她说。“我不认为生物系统与由其他材料制成的系统相比有什么特别之处，这些特别之处会阻止非生物系统变得智能。”

但是，即使有可能，对于它的到来可能有多近，也几乎没有共识：估计从现在开始只有几年到至少十年不等。George 说，如果创建了 AGI 系统，我们一看到它就会知道它。乔莱特怀疑它会悄悄地接近我们。“当 AGI 到来时，它不会像你想象的那么引人注目或具有开创性，”他说。“AGI 需要时间才能充分发挥其潜力。它将首先被发明出来。然后，你需要在它开始真正改变世界之前扩大并应用它。

按本人理解所编制（请读者指正），素材来自：自然 636， 22-25 （2024）

查看原图 21K