全球进入AI军备竞赛阶段？

红衣大叔周鸿祎

2024-12-27 17:54发布于北京360公司董事长兼CEO

全文2398字，阅读约需7分钟，帮我划重点

划重点

01过去十二天，几大国际巨头展开了AI军备竞赛，AI在逻辑推理、问题解决等方面迅速提升。

02OpenAI的o3模型在智力测试中打破了记录，展示了AI在逻辑推理、复杂推理等方面的惊人能力。

03由于o3模型的强大性能，需要消耗巨大的算力，成本比GPT要高很多。

04为此，国内厂商如360等已经推出了相应的方案，中国的跟进有望很快。

05未来人工智能必须文理兼修，o3的新范式有可能成为新一代的突破点。

以上内容由腾讯混元大模型生成，仅供参考

过去十二天，人类的命运、世界的命运可能被彻底改变了，但是我们很多普通人还没有觉察到。

这十二天里，几大国际巨头疯狂地展开了AI军备竞赛，AI正以惊人的速度逼近人类的能力边界，他们在逻辑推理、问题解决、模仿人的抽象思维等方面正在迅速提升，甚至在某些方面已经超过了99%的人类。

我们正处在一个历史的转折点上，面对这样一个迅速发展的AI大爆发，我们国家的AI产业将如何面对呢？

先从头来回顾一下AI的发展。

2023年，OpenAI发布了GPT-4，之后一直保持领先。随后，Anthropic和Google等陆续接近或达到了GPT-4的能力，开源模型方面，Meta和阿里巴巴也逐步接近甚至超越了GPT-4的水平。但是这种通过大量知识预训练、死记硬背、狂灌知识的路线遇到了瓶颈，就是公开的知识基本上耗尽了，模型的能力提升开始变缓。

巨头们开始不约而同地从快思考走向慢思考。

360在今年7月份第一个尝试通过多个模型协作、相互辩论来实现了慢思考的能力，使得多模型协作的能力超过了GPT-4。快思考是强调知识的学习、检索、生成问答和对话。慢思考则是转向思维链，通过多步推理、复杂推理来解决更难的问题。

这才是人的智力精华之所在。

9月，OpenAI不再做GPT-5了，他们发布了一个叫o1的模型，用的是强化学习带来的思维链产生的慢思考能力。o1推理能力非常强，技惊四座，AI竞赛进入一个新的赛道。

最近的12天，OpenAI每天做一场直播，宣布一个新的创新产品或者是技术，Anthropic和谷歌也陆续发布了自己的全新模型，对OpenAI展开了前所未有的挑战。

Anthropic主要是聚焦在复杂的推理、辅助编程等方面，这些方面超过了GPT-4。谷歌的Gemini 2.0聚焦在三个方面，一是多模态的实时处理方面，使得人工智能可以和人的视觉一样，通过视频摄像头看懂世界发生的事情，而且实时处理；二是聚焦视频生成，对物理定律的理解，远超Sora；三是推出了Gemini Thinking版本，即慢思考版本，可以进行非常强劲的推理能力，超越了OpenAI的o1引擎。

这让大家议论纷纷，谷歌终于王者归来，OpenAI不行了。

但仅仅一周后，也就是十二天最后一天，OpenAI又发布了一个超级厉害的新模型叫o3。为什么不叫o2呢？因为o2已经有公司注册了，所以他们直接从O1跳到了o3。

这是收官之作，比我们想象的还要猛烈。

先简单说一下，o3在各种智力测试中都打破了记录，在一个专门做复杂推理的通用智能测试中，o3的表现是之前所有模型的三倍的能力；在数学难题上，o3解决了25%的问题，而其他模型连2%的问题都搞不定。在编程方面，o3比原来的模型强了22.8%；在一个编程比赛中，o3的得分超过了OpenAI的首席科学家的能力。在美国数学邀请赛的题目上，o3几乎全对，只错了一道题。

可惜o3是一个期货，还不能马上用，所以很多人看完了觉得没什么特别的。

但我把演示过程仔细地看了一遍，真的觉得很震撼，因为它向我们展示了AI在逻辑推理、复杂推理、多步推理、解决复杂问题、理解复杂问题方面，已经前所未有的逼近了人类的极限能力边界。

所以，o3的意义和GPT就完全不一样了，不是像GPT那样简单的能够文本生成或者是跟人对话，而是第一次对我们人类智慧的核心能力发起了挑战。

所有的测试中，有三个测试值得再跟大家详细的说一下。

第一个叫Code forces，是编程比赛，Code forces题目比较刁，陷阱比较多，很多时候其实你知道用什么算法你也做不出来。o3在这个平台上得了多少分呢？得了2727分，这是个什么概念？意味着他超越了绝大多数人类成员，达到了专业级选手的水平。如果参与排名的话，他能排到全球第175名，超越了99%的人类。

第二，o3在数学领域的表现，则进一步让我们感觉到惊艳。传统的数学竞赛，对o3来说已经不在话下了，这次它接受了一个当今最难数学基准测试叫Frontier Math。这个测试是专门用来评估AI的高级数学推理能力，属于地狱级难度。题目有多难呢？别说普通人了，就是数学家也需要花费数天数小时才能解答。数学家陶哲轩更是说我觉得这些题目能难住AI好多年。之前的大模型都做过这个测试，准确率都低于2%，而o3却达到了25%。虽然25%还不及格，但是跟2%比起来，意味着AI开始具备解决极度复杂难题的能力。

真正让人觉得震撼的，是o3在一个通用人工智能基准测试中的表现。这个测试叫ARC - AGI，主要是评估AI的抽象推理能力和创造性的解题能力，即给AI几个图像、几个示例，希望AI能看出图背后隐藏的规则，并且能把这个规则应用于新的图像，对于人类来说也不简单，所以长期以来ARC测试是AI领域的一个挑战，基本上模型都做不好。GPT3是0分，GPT-4是2分，GPT - 4o是5分，o1版本高一点，大概能到二三十分。o3在计算资源算力管够的情况下居然达到了87.5分，超过了一般普通人的平均分。

所以你看这十二天，o3已经把AI的能力又提升了几个台阶。

但需要指出，支撑o3的强大性能需要消耗巨大的算力，成本比GPT要高太多，GPT的成本主要是花在训练，o3主要是用在推理。它需要把任务进行分解，找多种方法去解决同一个问题，这条路走不通就走另外一条路，就跟人做研究工作一样，这需要巨大的算力，算力背后就是能源。

o3如果在低能耗的模式下解决一个问题，要花费20美元，差不多150块人民币，如果是开足马力的模式，成本大概是低功耗模式的170多倍，约3500美金，也就是两万多人民币才能解一道题。

重点是，我们如何看待AI下一步的发展，这对我们中国的AI产业发展有什么借鉴？要找到我们自己的战略。

AGI的概念可能要重新定义一下，GPT的模式有点像文科生，读的书很多，知道的知识很多，记忆的知识也很多，也能融会贯通的写文章、生成各种内容、做对话，但是在解数理化、解科学问题上比较弱，必须要转入慢思考的模式，就是用思维链来进行多步推理、复杂推理，这个有点像理科生。

以后的人工智能必须文理兼修。

过去GPT的模式训练一个模型时间短则三个月，长则半年到一年，因为数据量太大，但是从o1到o3的进展仅仅用了三个月，说明这种慢思考、强化学习的模式进展比原来预训练的模式要快很多。

o3的这种新范式有可能成为人工智能新一代的突破点。

在这方面国内像360等很多厂商都已经推出了相应的方案。所以我觉得只要算力上没有问题，中国的跟进会很快。

查看原图 73K