编者按:没赶上父亲节,端午节我们用这篇文章向强化学习之父Rich Sutton致敬。
2019年他在这篇文章里预言:“长期来看,唯一重要的是利用计算资源。” 2020年,GPT-3的出现,完全证明了他的正确性。现在终于传出,GPT-4的参数,果然比GPT-3的1750亿大了一个数量级,达到了1.76万亿。
我们决定用GPT-4翻译出他当年那篇经典文章,过好这个端午节。
从70年的人工智能研究中可以得出的最重要的教训是,利用计算的一般方法最终是最有效的,并且优势明显。这背后的根本原因是摩尔定律,或者更确切地说是计算单位成本持续指数级下降。大多数人工智能研究都假设给定的计算资源是固定的;在这种情况下,利用人类知识是提高性能的唯一途径。但是在稍长的时间尺度上,必然会有更多的计算资源可用。为了在短期内取得改进,研究人员试图利用领域内的人类知识,但从长远来看,唯一重要的是利用计算资源。这两者并不一定矛盾,但在实践中它们往往是如此。花在其中一个方面的时间就意味着在另一个方面的时间不足。对于一种方法或另一种方法会产生心理上的投入。而且,基于人类知识的方法,往往把方法复杂到不适于利用计算的普遍方法。AI研究人员迟钝地认识到这一痛苦的教训,回顾其中一些最显著的例子是很有启发性的。
在计算机国际象棋中,击败世界冠军卡斯帕罗夫的方法是基于大规模的深度搜索。当时,这让大多数计算机棋类研究人员感到不爽,他们一直追求的方法,是利用人类对棋局特殊结构的理解。当一个更简单、基于搜索的方法以定制的硬件和软件证明自己更加有效时,这些基于人类知识的棋类研究人员并不是体面的输家。他们说“蛮力”搜索可能赢了这一次,但它不是一种普遍的策略,而且无论如何它都不是人类下棋的方式。这些研究人员希望基于人类输入的方法取胜,结果他们只有失望,没有胜利。
20年后,又出现了类似的研究模式,这一次他们用计算机下围棋。最初很大的精力用来利用人类知识,或者利用这一游戏的特点来避免搜索,但是所有这些努力变得无关紧要甚至更糟,因为大规模搜索更加有效。还有一点,通过自我对弈学习价值函数的方法,对于围棋和其他许多游戏而言都非常重要,尽管学习在1997年首次击败国际象棋的世界冠军的程序中并不起重要作用。学习和搜索是利用大规模计算的人工智能研究中最重要的两类技术。在计算机围棋中,与计算机国际象棋一样,研究人员最初的努力是利用人类的理解(以减少搜索量),后来才通过搜索和学习取得更大的成功。
在语音识别领域,20世纪70年代有一个由DARPA(美国国防部研究局——编译者)赞助的早期竞赛。参赛者挖空心思,使用了一系列利用人类知识的招术,包括对单词、音素、人类声道等的理解。另一方面,还有一些更注重统计特性的新方法,它们基于隐马尔可夫模型(HMM)进行了更多的计算。同样,统计方法在基于人类知识的方法上取得了胜利。这导致了自然语言处理领域的重大变革,统计和计算逐步主导了该领域。近年来,这一趋势产生了新的进展,深度学习在语音识别中崛起。深度学习方法更少地依赖于人类知识,而更多地利用计算资源和大规模训练集上的学习,以产生明显更好的语音识别系统。与棋类游戏一样,研究人员总是试图构建系统,符合自以为是的思维方式,他们试图将这些知识放入他们的系统中,但最终证明效果适得其反,也是对研究人员时间的巨大浪费,因为通过摩尔定律,大规模计算变得可行,而且能得到很好的利用。
在计算机视觉领域,存在着类似的模式。早期的方法将视觉理解为寻找边缘、广义圆柱体或基于SIFT特征进行处理。但是现在这些方法都被弃用了。现代深度学习神经网络只使用卷积和某些不变性概念,并且表现得更好。(SIFT是尺度不变特征变换(Scale-Invariant Feature Transform)的缩写,它是一种在计算机视觉中用于图像特征提取和匹配的算法。广义圆柱体(generalized cylinder)是一种几何形状模型,通常用于描述物体的三维形状,它由一个中心线和横截面沿着中心线延伸形成。——编译者)
这是一个大大的教训。我们仍然没有深刻地理解人工智能这个领域,因为我们仍然在犯同样的错误。为了看清这一点并有效地抵制它,我们必须理解这些错误的魅惑之处。我们必须吸取这一痛苦的教训,即在长期内,将自以为我们的思考方式内置到系统中是行不通的。这一痛苦的教训基于历史观察:1)人工智能研究人员经常试图将知识构建到他们的代理系统中,2)这在短期内总是有帮助的,并且对研究人员个人而言也是令人满意的,但是3)从长远来看,这种方法会遇到瓶颈甚至阻碍进步,4)最终的突破性进展是通过完全相反的方法,通过扩大算力的搜索和学习来实现的。最终的成功带有一丝苦涩,并且通常难以消化,因为它是战胜了一种被偏爱的、以人为中心的方法。
从这一痛苦的教训中应该学到的第一点就是通用方法的巨大力量,即使算力已经非常强大,只要算力增加,方法还能持续扩展。有两种方法似乎可以因此而无拘束地扩展,它们就是搜索和学习。
从这个痛苦的教训中可以得出的第二个普遍观点是,心智的实际内容是极其复杂且无法挽回的;我们应该停止枉费心机,以为能找到关于心智内容的简化方式,例如简化对空间、物体、多个主体或对称性的思考方式。所有这些都是任意的、本质上复杂的外部世界的一部分。它们不应该被内置,因为它们的复杂性是无穷无尽的;相反,我们应该仅内置可以发现和捕捉这种任意复杂性的元方法。这些方法的关键是它们能够找到良好的近似,但寻找这些近似应该由我们的方法而非我们自己来进行。我们希望人工智能代理能够像我们一样去发现,而不是仅仅封装我们已经发现的知识。将我们的发现内置,只会使我们更难看清发现过程的本质。
注,此文为GPT-4所译,经过未尽研究校对。原文发布于2019年3月13日,链接:
http://incompleteideas.net/IncIdeas/BitterLesson.html
查看原图 42K