苦涩的教训 I AI经典

未尽研究

2023-06-23 00:42发布于上海未尽研究官方账号

编者按：没赶上父亲节，端午节我们用这篇文章向强化学习之父Rich Sutton致敬。

2019年他在这篇文章里预言：“长期来看，唯一重要的是利用计算资源。” 2020年，GPT-3的出现，完全证明了他的正确性。现在终于传出，GPT-4的参数，果然比GPT-3的1750亿大了一个数量级，达到了1.76万亿。

我们决定用GPT-4翻译出他当年那篇经典文章，过好这个端午节。

从70年的人工智能研究中可以得出的最重要的教训是，利用计算的一般方法最终是最有效的，并且优势明显。这背后的根本原因是摩尔定律，或者更确切地说是计算单位成本持续指数级下降。大多数人工智能研究都假设给定的计算资源是固定的；在这种情况下，利用人类知识是提高性能的唯一途径。但是在稍长的时间尺度上，必然会有更多的计算资源可用。为了在短期内取得改进，研究人员试图利用领域内的人类知识，但从长远来看，唯一重要的是利用计算资源。这两者并不一定矛盾，但在实践中它们往往是如此。花在其中一个方面的时间就意味着在另一个方面的时间不足。对于一种方法或另一种方法会产生心理上的投入。而且，基于人类知识的方法，往往把方法复杂到不适于利用计算的普遍方法。AI研究人员迟钝地认识到这一痛苦的教训，回顾其中一些最显著的例子是很有启发性的。

在计算机国际象棋中，击败世界冠军卡斯帕罗夫的方法是基于大规模的深度搜索。当时，这让大多数计算机棋类研究人员感到不爽，他们一直追求的方法，是利用人类对棋局特殊结构的理解。当一个更简单、基于搜索的方法以定制的硬件和软件证明自己更加有效时，这些基于人类知识的棋类研究人员并不是体面的输家。他们说“蛮力”搜索可能赢了这一次，但它不是一种普遍的策略，而且无论如何它都不是人类下棋的方式。这些研究人员希望基于人类输入的方法取胜，结果他们只有失望，没有胜利。

20年后，又出现了类似的研究模式，这一次他们用计算机下围棋。最初很大的精力用来利用人类知识，或者利用这一游戏的特点来避免搜索，但是所有这些努力变得无关紧要甚至更糟，因为大规模搜索更加有效。还有一点，通过自我对弈学习价值函数的方法，对于围棋和其他许多游戏而言都非常重要，尽管学习在1997年首次击败国际象棋的世界冠军的程序中并不起重要作用。学习和搜索是利用大规模计算的人工智能研究中最重要的两类技术。在计算机围棋中，与计算机国际象棋一样，研究人员最初的努力是利用人类的理解（以减少搜索量），后来才通过搜索和学习取得更大的成功。

在语音识别领域，20世纪70年代有一个由DARPA（美国国防部研究局——编译者）赞助的早期竞赛。参赛者挖空心思，使用了一系列利用人类知识的招术，包括对单词、音素、人类声道等的理解。另一方面，还有一些更注重统计特性的新方法，它们基于隐马尔可夫模型（HMM）进行了更多的计算。同样，统计方法在基于人类知识的方法上取得了胜利。这导致了自然语言处理领域的重大变革，统计和计算逐步主导了该领域。近年来，这一趋势产生了新的进展，深度学习在语音识别中崛起。深度学习方法更少地依赖于人类知识，而更多地利用计算资源和大规模训练集上的学习，以产生明显更好的语音识别系统。与棋类游戏一样，研究人员总是试图构建系统，符合自以为是的思维方式，他们试图将这些知识放入他们的系统中，但最终证明效果适得其反，也是对研究人员时间的巨大浪费，因为通过摩尔定律，大规模计算变得可行，而且能得到很好的利用。

在计算机视觉领域，存在着类似的模式。早期的方法将视觉理解为寻找边缘、广义圆柱体或基于SIFT特征进行处理。但是现在这些方法都被弃用了。现代深度学习神经网络只使用卷积和某些不变性概念，并且表现得更好。（SIFT是尺度不变特征变换（Scale-Invariant Feature Transform）的缩写，它是一种在计算机视觉中用于图像特征提取和匹配的算法。广义圆柱体（generalized cylinder）是一种几何形状模型，通常用于描述物体的三维形状，它由一个中心线和横截面沿着中心线延伸形成。——编译者）

这是一个大大的教训。我们仍然没有深刻地理解人工智能这个领域，因为我们仍然在犯同样的错误。为了看清这一点并有效地抵制它，我们必须理解这些错误的魅惑之处。我们必须吸取这一痛苦的教训，即在长期内，将自以为我们的思考方式内置到系统中是行不通的。这一痛苦的教训基于历史观察：1）人工智能研究人员经常试图将知识构建到他们的代理系统中，2）这在短期内总是有帮助的，并且对研究人员个人而言也是令人满意的，但是3）从长远来看，这种方法会遇到瓶颈甚至阻碍进步，4）最终的突破性进展是通过完全相反的方法，通过扩大算力的搜索和学习来实现的。最终的成功带有一丝苦涩，并且通常难以消化，因为它是战胜了一种被偏爱的、以人为中心的方法。

从这一痛苦的教训中应该学到的第一点就是通用方法的巨大力量，即使算力已经非常强大，只要算力增加，方法还能持续扩展。有两种方法似乎可以因此而无拘束地扩展，它们就是搜索和学习。

从这个痛苦的教训中可以得出的第二个普遍观点是，心智的实际内容是极其复杂且无法挽回的；我们应该停止枉费心机，以为能找到关于心智内容的简化方式，例如简化对空间、物体、多个主体或对称性的思考方式。所有这些都是任意的、本质上复杂的外部世界的一部分。它们不应该被内置，因为它们的复杂性是无穷无尽的；相反，我们应该仅内置可以发现和捕捉这种任意复杂性的元方法。这些方法的关键是它们能够找到良好的近似，但寻找这些近似应该由我们的方法而非我们自己来进行。我们希望人工智能代理能够像我们一样去发现，而不是仅仅封装我们已经发现的知识。将我们的发现内置，只会使我们更难看清发现过程的本质。

注，此文为GPT-4所译，经过未尽研究校对。原文发布于2019年3月13日，链接：

http://incompleteideas.net/IncIdeas/BitterLesson.html

查看原图 42K