(关注公众号并设为🌟标,获取最新人工智能资讯和产品)
在人工智能快速发展的今天,一个关键性的悖论正困扰着这个领域。桥水基金(世界头号对冲基金)AI实验室首席科学家Jas Sekhon提供了一个框架来解析这一问题。
从技术发展的轨迹来看,AI正沿着两条并行的道路前进:规模扩张与算法优化。在规模方面,过去几年分配给AI算法的计算能力每年增长约四到五倍,这意味着每两年就会实现10倍的飞跃。这种指数级增长伴随着巨额资本投入,推动着整个行业快速向前。然而,技术的快速进步也带来了应用落地的两极分化:科学界因其专业素养能够驾驭这些复杂模型而备受鼓舞;商业界则因缺乏必要的专业知识而在应用层面显得犹豫不决,难以充分发挥当前AI技术的潜力。
这种鸿沟的弥合似乎存在两条路径:一是循序渐进,通过培养更多专家来扩大AI的经济影响力;二是技术突破,由基础实验室解决核心规划问题,加速AI的普及应用。就像OpenAI最新模型在推理能力上的突破,虽然离最终目标尚远,但已展现出令人期待的曙光。无论采取哪种路径,AI终将重塑经济格局,只是时间快慢的问题。
演讲文稿
今天,我想谈谈人工智能的现状,并提供一个框架,希望能帮助大家理解人工智能在不久的将来会走向何方。我还希望这个框架能够解开目前存在的一个悖论,因为目前有两种看法同时出现。
一方面,一些资本分配者对过去12个月的人工智能进展感到有些失望。例如,像红杉资本和高盛这样的公司在问,所有这些资本支出投入的需求在哪里?目前生成的AI产品在市场上并没有太多实际用途或兴趣。与此同时,在科学界,人工智能的发展超出了预期,而且原本的期望值已经很高。这并不是计算机科学领域或AI本身在自我吹捧,而是来自诸如气候科学、结构化化学等多种科学领域的问题正在被解决,这些问题在24个月前还被认为是科幻。为什么这些事情会同时发生?希望我能解释清楚。
AI发展历史
要理解AI的未来以及当前的状况,了解它的近代历史是很有帮助的。在这张图表中,展示了AI的简史以及关于AI的两种不同学派的博弈。
第一种学派被称为连接主义方法,基本上基于归纳的思想。第二种学派是符号方法,基于演绎的理念除了符号方法短暂占据主导地位以外,几乎一直是连接主义方法主导。这意味着,你听到的关于AI的所有内容几乎都是基于连接主义方法的。
那么,这些方法是什么?它们从一个非常简单的想法开始:给我一些数据,不管是什么数据——可以是一串文字,可以是图像的像素,甚至可以是宏观经济统计数据。然后告诉我你想预测什么——可能是下一个词、下一个经济数据,或者是这幅图像中是猫还是狗。在中间,算法会完成其工作,尽管可能是一个难以解释的“黑箱”,但它会给出预测。如果给我更多的计算能力和数据,算法的表现就会越来越好。如果持续这样下去,我们将得到智能,这就是这个方法的信念。
而符号方法学派认为,除了归纳还有演绎。他们的观点是,你需要写下形式化的逻辑系统,并从中进行推演。一个典型的例子就是计算器,计算器不可能出错,因为它知道基本算术的规则,这些规则不是它自己学会的,而是由人类写下来并提供给它的。除非出现硬件故障,否则它不会犯错。这就是一种演绎系统,典型的例子是专家系统,也是一种符号系统。
目前最常见的连接主义系统就是深度学习,但现在几乎全是深度学习。然而,请记住归纳和演绎之间的这种张力,因为它将在我们讨论的张力和悖论中发挥作用。这种连接主义方法在本世纪取得了惊人的进展。科学生涯初期,大约在2000年,手写识别刚刚起步。当时的表现几乎为零,而用了大约12年才达到人类水平,这大约是一个学术世代。除了对美国邮政局影响较大以外,几乎没有人关注。
语音识别技术
接着是语音识别,花费时间更长,然后事情开始迅速变化。斯坦福大学的李飞飞提出了一个图像分类的基准,要求区分图片中是猫还是狗。他们原以为要用一代人的时间达到人类水平,但几乎用了几年的时间就实现了。然后是图像推理,接下来是语言理解和推理,速度迅速超越了人类水平。因为这是一个非常具有启发性的例子。这个数学基准测试涉及中学和初高中水平的数学竞赛题目,不是我们能想象的最难的内容,但超出了基础算术,包含代数和几何。在2001年,人工智能在这项基准测试中的表现仅达到了人类水平的6%。而我的前同事们在伯克利提出了这个基准测试,得出的结论令人失望,他们认为,要在这个测试中取得好成绩,我们需要新的科学突破。令人沮丧的原因是,新科学的突破是不可预期的。我们不知道何时会有新的科学巨人出现,比如爱因斯坦在1905年那样发布一系列变革性的论文。新科学的突破是不可预期的,而技术和工程则可以预期。
然而,今年初,在这个我们曾认为需要科学突破的基准测试上,人工智能的表现已经超过了人类水平的94%。而这只需要规模化:给更多计算力,更多数据,使用连接主义方法的常规工具就够了。这个曾经被认为需要突破才能实现的目标,实际上不需要突破。我稍后还会再谈这个数学问题。
现在,在文化上最引人注目的是语言能力。我认为语言之所以引人关注,是因为我们习惯于看到其他生物在速度和力量上超过我们,但在这些语言模型出现之前,地球上没有任何东西能像我们一样掌握语言。这曾经被认为是我们人类独有的能力,但事实证明,机器现在也能做到这一点,且表现已超过人类水平。同样地,这个进展的速度也令人惊叹。
GPT-2是在2019年推出的,当时它相当于小学生水平。如果你要求它列出十个理由,它可能只会列出五个或十五个,内容也很糟糕,能输出完整的句子就已经让人很开心了。然而到了2023年,你会看到这些高水平的表现,远超我们曾认为具有认知负担的测试。在人工智能实现这些成就之前,我们往往认为一旦计算机能够做到,我们就会觉得这个测试不再具有认知挑战性。但如果你看看这些测试,我们曾认为它们确实有难度。
第一个测试是AP生物学测试,高级生物学测试。一旦AI在这个测试中达到了第85百分位的成绩,这使比尔·盖茨决定支持生成式AI。比尔·盖茨曾以为这需要一代人的时间才能实现,结果OpenAI仅用了六个月就做到了。然后是法学院入学考试,这个测试是为那些拥有本科学历并打算进入法学院的学生设计的。AI的得分达到了88百分位,超过了几乎所有美国法学院的平均成绩。最令人印象深刻的测试结果是神经外科口试,因为这个测试题目不在训练数据中。
那么,什么是神经外科口试?神经外科是美国培训时间最长的医学专科。这些受试者拥有本科学历、医学学位、住院医师经历,外加专科手术的培训,这才是他们的最后一项考试。AI在这项考试中得到了83%的高分,而过去十年中,没有任何人类考生超过90%。当这篇论文发表后,一些研究人员和哈佛、耶鲁医学院的院长开会讨论时,大家都惊讶不已。他们认为医学再也不会一样了,因为这不是记忆任务,而是一个涉及鉴别诊断和推理的测试,他们认为这非常困难。
机器学习系统
尽管人工智能在这些领域取得了惊人的进展,但几乎所有机器学习的经济价值都不是来自生成式AI,而是传统的机器学习。它们主要来自由美国科技巨头创建的全球规模的机器学习系统。举个例子,亚马逊使用机器学习构建全球供应系统,以预测需求和供应曲线,从而优化价格匹配。谷歌则使用机器学习技术和模型进行广告投放,Facebook也是如此。这些系统在全球范围内运作,从未有过如此规模的系统。而这些系统带来的价值通常流向美国,尤其是旧金山湾区。
那么,为什么这些价值大多集中在它们身上呢?这些工具非常难以使用,需要大量的资本和科学专业知识。而科学专业知识不仅难以聚集,还需要激励,最终将其有效地转化为生产力。大型语言模型——当前这个领域的焦点——使用起来极其困难。它们的一个关键局限在于它们难以逐步思考。它们知识丰富,能掌握大量信息,比如热力学定律,也了解像《哈姆雷特》中的角色罗森格兰兹和吉尔登斯特恩。能同时掌握这些知识的少之又少。所以,从知识角度来看,它们非常聪明,但从逻辑推理的角度来说,却不够智能。如果给它们一个逻辑谜题,它们需要逐步推理并记住正在进行的步骤时,它们就会崩溃。它们在这方面的表现很差。
这就是为什么当下我们把大型语言模型视为编程中的“协同助手”。程序员在编码时,它可以建议如何完成代码,这确实很有帮助。但它在经济或公司中的应用却很大程度上取决于程序员是否愿意调整自己的编程方式以适应它。这是非常困难的。目前,你无法让它们像远程工人一样完成任务。你无法像雇佣一位远程工人那样,告诉它们修复一个错误或添加一个功能,因为它们无法长时间专注于任何特定任务。它们无法表现出所谓的“代理行为”。
大约12个月前,硅谷的想法是:我们知道这些局限性,但我们可以为大型语言模型配备许多工具。尽管它们无法进行数学运算(这出乎所有人的意料),但我们有计算器,可以给它们编程工具和其他各种工具。于是,很快它们就能为我们处理后台事务,编写复杂的代码,甚至解决许多商业问题。然而,问题在于它们的“注意力跨度”极其有限,类似于金鱼,甚至无法有效使用这些工具。如果要让它们有效使用工具,需要大量的科学专业知识和巨额的资本投入来解决你的问题。
谁具备这种能力呢?如果你是谷歌,可以做到;如果你是科研实验室,比如你研究的是蛋白质折叠或寻找新型抗生素,你也可以做到。但是,如果你是福特,或是经济中的其他公司,就很难做到,你没有这样的能力。因此,除非你具备这种专业知识,否则使用这项技术将非常困难,或者除非这项技术变得更易使用。所有的基础实验室对此都心知肚明。谷歌知道,Anthropic知道,OpenAI知道,Meta知道,他们都知道这一点。因此,他们都在试图让这些工具变得更易于使用。实现这一目标有两种方式。第一种方式就是扩大规模。这次技术革命的有趣之处在于,最简单的方法也能奏效。什么是最简单的方法?就是提供更多的数据和计算能力。当然,实现这一点并非易事,但不需要像爱因斯坦那样的天才去发明新的算法。你只需要提供更多的数据和计算力就行了。
推理系统模型
所以我们会继续这样做,这是一种赌注。另一种赌注是,我们不仅仅是增加数据和计算力,而是要真正变得更聪明,有一个新想法。我们的想法是要在AI中引入推理,类似于我们曾经忽视的符号学派的推理过程,可能我们不该忽略它。我们需要加入这种逐步的推理过程。所以,这就是两种可能的路径。我稍后会再谈到最近发布的OpenAI的新模型,它就基于算法推理的概念,与前一代模型相比,它没有更大的规模,主要是增加了推理能力。
现在,我们有两种人工智能的短期未来发展路径。第一种是乐观的情况。所有实验室都在努力,整个科学界都在致力于让大型语言模型具备代理性和规划能力,即使它们的智能水平不再提升。它们已经在许多领域的知识水平上超越了人类,如果它们能够进行规划,那将会带来巨大的经济价值。公司也无需大规模调整组织结构,就像你管理西班牙或印度的外部团队一样,需要一定的管理任务,但不会要求员工改变工作方式,也无需雇用大量的博士生等。这种情况下,技术会顺利推广,产品会逐步推出,这就是乐观的情况,我们有可能实现它。目前很多人都在为此努力。
如果这种情况未能实现,那么就会出现另一种仍然非常具有变革性的情况,但需要更长时间的“磨砺”。这将像历史上其他的通用技术创新一样,经历缓慢的过程,就像电力的普及一样。当时,工厂主们因为有了电力,决定用电力替代蒸汽发电机,因为大家认为这就是未来。然而,生产力却下降了,因为蒸汽发电机实际上有更大的力,可以完成更多的工作。新的电力设备反而导致机器运作不良,生产力下降。工厂主们大笔投资后,发现生产效率反而下降了。
之后,有人灵光一闪:电力设备与蒸汽不同,可以并联,可以在工厂里自由移动,甚至不需要在同一个建筑中,可以实现更多的生产效率。这一理念的真正应用花了25年时间,因为需要改变土地使用方式,工厂结构也要调整,工人也需要再培训。最后才实现了生产力的正增长,但这是一个漫长的过程,涉及用户端的大量资本投入和再培训。人类历史上的大多数技术创新都经历了这种缓慢的过程。如果我们不能解决代理性的问题,这将是基础情况。即便如此,这一基础情况仍然非常乐观。如果回顾我之前提到的数学问题,2021年科学家们认为要解决这些问题需要新的科学突破。大型语言模型在年初的最难数学测试中,无法解出一题,零分。然而,这并不令人失望,因为大多数人类也难以解答这些题目。
一些人曾认为,这需要一代人的努力,DeepMind表示,他们可以解决这一问题。今年,他们在几何部分取得了金牌,正确率达到了83%。在最新的模型中,几何题目已经可以达到100%的正确率。因此,现在这些模型能够无误地完成欧几里得证明,而在六个月前,没有任何AI系统能够做到这一点,从零分到100%只用了半年时间。此外,模型在所有国际数学奥林匹克的知识领域,包括代数和数论,也达到了银牌水平。要知道,这些测试难度极高,即便我们在普通人身上投入数十亿进行培训,他们也几乎不可能在国际数学奥林匹克上获得金、银或铜牌,这就像期望一个普通人赢得奥运会百米金牌一样不现实。然而,AI现在已达到银牌水平。预测市场显示,到明年AI系统将能拿到金牌。
但要实现这一点,你需要像Google DeepMind这样的团队,拥有大量博士生和充足的资本投入,这才得以解决这个原本不可解决的问题。这就是为什么科学界如此激动——这也是为什么陶哲轩,可能是过去50年里最伟大的数学家,看到这些模型后评价说,它们现在几乎达到了一个平庸的研究生的数学水平。这是非常高的评价,你有一个系统在数学上接近中等水平,而发表这一评价的人还是被认为是过去半个世纪最伟大的数学家。所以你可以看到,去年我们甚至还完全达不到这个水平。现在你虽然不需要谷歌那样的资本投入,但你确实需要专业知识。
AI创新效果
另一个例子是,我们一直在对抗抗药性细菌的战争中处于劣势,因为我们几乎没有新的抗生素可以使用。这本身也是一个经济问题。在化学领域,人类历史上只分类了约一亿种分子。但麦克马斯特大学和斯坦福大学的一个团队聚在一起,提出了一个想法:为什么不让AI去筛查300亿个可能的分子?这是人类无法完成的工作。他们希望看看AI是否能完成一些人类无法做到的事情。这正是AI创新效果的体现:它并不是在替代人类能够完成的任务,而是执行人类根本无法完成的任务。团队开发了一个系统,能够筛查300亿种可能的分子,并提出了56种候选分子。然后他们将这些分子带到实验室,结果其中6种分子对抗药性细菌有效。这个成功率远高于人类药物发现的平均水平,而且这一切都是在过去几个月内发生的。这就是即使没有解决规划问题,AI也在实现令人惊叹的成果的乐观前景。
但是,我们仍然希望让这项技术更易于使用。记住,改进的方向有两个:一个是扩大规模,另一个是改进算法。规模方面已经在运作中。如果你回顾过去几年,分配给这些算法的计算量每年增加约四倍,最近加速到了接近五倍,因此每两年计算力就有10倍的提升。这种增长也带来了资本支出的显著增长。
例如,ChatGPT-4是在2022年进行训练的,2023年发布。建造用于训练ChatGPT-4的数据中心的成本大约是4亿美元。如果你在网上搜索这个数字,通常会看到“1亿美元”,那只是训练成本,而不是建造数据中心的成本,真正的建造成本是4亿美元。虽然这个数字听起来很大,但我们已经在建造100亿美元规模的数据中心。甚至有消息透露,微软和OpenAI之间的“Stargate项目”计划建造1000亿美元的数据中心。因此,规模扩展正在持续推进。
我们会继续从规模扩展中获得回报吗?由于规模的增加带来了性能的不断提升,但具体效果还需进一步验证。不过,目前资本仍在投入,规模扩展会继续,但不只是规模驱动着进步,算法也在不断改进。整个供应链上的创新几乎完全发生在美国。仅旧金山湾区的影响力就超过了世界其他地区的总和。在这个领域,如果欧洲和亚洲全部消失,其重要性都不如旧金山湾区。很多人可能还没有完全意识到这一点。
当你看到计算力增长时,硬件方面的贡献仍然占主导地位,例如英伟达提供的计算能力。但算法进展的正在增长,这意味着我们在寻求更好的想法,而不仅仅是依赖计算力。而在过去几年里,这种算法创新的进展已经逐渐走向保密。现在这些科学家们不再像在洛斯阿拉莫斯沙漠中与德国科学家分享信息一样公开发表成果。
尽管大家会偶尔交流,员工也会在公司之间流动,但这些信息并非完全保密,只是相对而言不再公开。没有人再写相关论文,这些研究变得安静了许多。然后,OpenAI最新发布的这个模型就是完全基于算法进展的一项成果,而各家公司现在也在努力保护这些算法进展,将其作为知识产权加以保护。国家安全部门也意识到了这一点,正在敦促大家保护这些技术,以确保规模扩展的持续性,并解决规划问题。此外,主要的基础实验室,特别是那些创造大型模型的实验室,将AI视为一种“生存风险”。因此,他们的投入平均高于以往,并且各个公司间的投入水平也在不断趋同。虽然Anthropic的数据暂缺,但OpenAI和谷歌的计算能力每年都在增加五倍。Meta(Facebook)起步较晚,因此年增速为七倍。马斯克的xAI不在图表中,但其增长曲线是直线上升的,因为它从无到有,快速增长。
算力持续增长
根据AI的“规模定律”,当各家公司在计算力上的投入趋同时,它们的性能应该会逐渐趋向平衡。我们看到的是,随着模型发布和能力的提升,各家公司在相互超越。例如,在上周OpenAI最新模型发布前,Anthropic的Claude一度超越了之前的GPT-4,而谷歌的模型在某一阶段也表现出色。这种竞争很难预测谁将最终胜出,因为所有大公司都将AI视为生存风险,不断投入资本。不同公司在AI应用上的激励也有所不同。就科学应用而言,谷歌DeepMind遥遥领先,这也是其热衷的领域。它解决了蛋白质折叠问题,并将成果免费分享给世界,因为他们的目标是变革医学,而非从蛋白质折叠技术中牟利。与此不同,OpenAI和Anthropic由于商业结构的原因,必须生产直接面向消费者或企业的最佳模型。
总结一下,科学界非常兴奋,即使是那些不直接从事AI的科学家,因为他们拥有足够的专业知识来控制这些复杂的模型。同时,商业界则有些犹豫,因为目前技术的复杂性导致他们难以充分利用这些模型。他们缺乏足够的专业知识来实现当前技术的最大化效益。
然而,不管是以较慢的速度即培养出更多的专家,逐步融入经济还是以较快的速度如果基础实验室能够解决规划问题,最终我们都将实现这一目标。如果从现在回看十年后,整个经济将因AI而变革;或者,如果技术进步足够快,AI的推广将会非常迅速。OpenAI最新的模型在推理能力上比之前的模型要强,这是朝着乐观情况迈出的重要一步,尽管距离完全解决这一问题还有很长的路要走,最终哪种路径会胜出仍难以预测。
素材来源官方媒体/网络新闻