划重点
01过去十二天,几大国际巨头展开了AI军备竞赛,AI在逻辑推理、问题解决等方面迅速提升。
02OpenAI的o3模型在智力测试中打破了记录,展示了AI在逻辑推理、复杂推理等方面的惊人能力。
03由于o3模型的强大性能,需要消耗巨大的算力,成本比GPT要高很多。
04为此,国内厂商如360等已经推出了相应的方案,中国的跟进有望很快。
05未来人工智能必须文理兼修,o3的新范式有可能成为新一代的突破点。
以上内容由腾讯混元大模型生成,仅供参考
过去十二天,人类的命运、世界的命运可能被彻底改变了,但是我们很多普通人还没有觉察到。
这十二天里,几大国际巨头疯狂地展开了AI军备竞赛,AI正以惊人的速度逼近人类的能力边界,他们在逻辑推理、问题解决、模仿人的抽象思维等方面正在迅速提升,甚至在某些方面已经超过了99%的人类。
我们正处在一个历史的转折点上,面对这样一个迅速发展的AI大爆发,我们国家的AI产业将如何面对呢?
先从头来回顾一下AI的发展。
2023年,OpenAI发布了GPT-4,之后一直保持领先。随后,Anthropic和Google等陆续接近或达到了GPT-4的能力,开源模型方面,Meta和阿里巴巴也逐步接近甚至超越了GPT-4的水平。但是这种通过大量知识预训练、死记硬背、狂灌知识的路线遇到了瓶颈,就是公开的知识基本上耗尽了,模型的能力提升开始变缓。
巨头们开始不约而同地从快思考走向慢思考。
360在今年7月份第一个尝试通过多个模型协作、相互辩论来实现了慢思考的能力,使得多模型协作的能力超过了GPT-4。快思考是强调知识的学习、检索、生成问答和对话。慢思考则是转向思维链,通过多步推理、复杂推理来解决更难的问题。
这才是人的智力精华之所在。
9月,OpenAI不再做GPT-5了,他们发布了一个叫o1的模型,用的是强化学习带来的思维链产生的慢思考能力。o1推理能力非常强,技惊四座,AI竞赛进入一个新的赛道。
最近的12天,OpenAI每天做一场直播,宣布一个新的创新产品或者是技术,Anthropic和谷歌也陆续发布了自己的全新模型,对OpenAI展开了前所未有的挑战。
Anthropic主要是聚焦在复杂的推理、辅助编程等方面,这些方面超过了GPT-4。谷歌的Gemini 2.0聚焦在三个方面,一是多模态的实时处理方面,使得人工智能可以和人的视觉一样,通过视频摄像头看懂世界发生的事情,而且实时处理;二是聚焦视频生成,对物理定律的理解,远超Sora;三是推出了Gemini Thinking版本,即慢思考版本,可以进行非常强劲的推理能力,超越了OpenAI的o1引擎。
这让大家议论纷纷,谷歌终于王者归来,OpenAI不行了。
但仅仅一周后,也就是十二天最后一天,OpenAI又发布了一个超级厉害的新模型叫o3。为什么不叫o2呢?因为o2已经有公司注册了,所以他们直接从O1跳到了o3。
这是收官之作,比我们想象的还要猛烈。
先简单说一下,o3在各种智力测试中都打破了记录,在一个专门做复杂推理的通用智能测试中,o3的表现是之前所有模型的三倍的能力;在数学难题上,o3解决了25%的问题,而其他模型连2%的问题都搞不定。在编程方面,o3比原来的模型强了22.8%;在一个编程比赛中,o3的得分超过了OpenAI的首席科学家的能力。在美国数学邀请赛的题目上,o3几乎全对,只错了一道题。
可惜o3是一个期货,还不能马上用,所以很多人看完了觉得没什么特别的。
但我把演示过程仔细地看了一遍,真的觉得很震撼,因为它向我们展示了AI在逻辑推理、复杂推理、多步推理、解决复杂问题、理解复杂问题方面,已经前所未有的逼近了人类的极限能力边界。
所以,o3的意义和GPT就完全不一样了,不是像GPT那样简单的能够文本生成或者是跟人对话,而是第一次对我们人类智慧的核心能力发起了挑战。
所有的测试中,有三个测试值得再跟大家详细的说一下。
第一个叫Code forces,是编程比赛,Code forces题目比较刁,陷阱比较多,很多时候其实你知道用什么算法你也做不出来。o3在这个平台上得了多少分呢?得了2727分,这是个什么概念?意味着他超越了绝大多数人类成员,达到了专业级选手的水平。如果参与排名的话,他能排到全球第175名,超越了99%的人类。
第二,o3在数学领域的表现,则进一步让我们感觉到惊艳。传统的数学竞赛,对o3来说已经不在话下了,这次它接受了一个当今最难数学基准测试叫Frontier Math。这个测试是专门用来评估AI的高级数学推理能力,属于地狱级难度。题目有多难呢?别说普通人了,就是数学家也需要花费数天数小时才能解答。数学家陶哲轩更是说我觉得这些题目能难住AI好多年。之前的大模型都做过这个测试,准确率都低于2%,而o3却达到了25%。虽然25%还不及格,但是跟2%比起来,意味着AI开始具备解决极度复杂难题的能力。
真正让人觉得震撼的,是o3在一个通用人工智能基准测试中的表现。这个测试叫ARC - AGI,主要是评估AI的抽象推理能力和创造性的解题能力,即给AI几个图像、几个示例,希望AI能看出图背后隐藏的规则,并且能把这个规则应用于新的图像,对于人类来说也不简单,所以长期以来ARC测试是AI领域的一个挑战,基本上模型都做不好。GPT3是0分,GPT-4是2分,GPT - 4o是5分,o1版本高一点,大概能到二三十分。o3在计算资源算力管够的情况下居然达到了87.5分,超过了一般普通人的平均分。
所以你看这十二天,o3已经把AI的能力又提升了几个台阶。
但需要指出,支撑o3的强大性能需要消耗巨大的算力,成本比GPT要高太多,GPT的成本主要是花在训练,o3主要是用在推理。它需要把任务进行分解,找多种方法去解决同一个问题,这条路走不通就走另外一条路,就跟人做研究工作一样,这需要巨大的算力,算力背后就是能源。
o3如果在低能耗的模式下解决一个问题,要花费20美元,差不多150块人民币,如果是开足马力的模式,成本大概是低功耗模式的170多倍,约3500美金,也就是两万多人民币才能解一道题。
重点是,我们如何看待AI下一步的发展,这对我们中国的AI产业发展有什么借鉴?要找到我们自己的战略。
AGI的概念可能要重新定义一下,GPT的模式有点像文科生,读的书很多,知道的知识很多,记忆的知识也很多,也能融会贯通的写文章、生成各种内容、做对话,但是在解数理化、解科学问题上比较弱,必须要转入慢思考的模式,就是用思维链来进行多步推理、复杂推理,这个有点像理科生。
以后的人工智能必须文理兼修。
过去GPT的模式训练一个模型时间短则三个月,长则半年到一年,因为数据量太大,但是从o1到o3的进展仅仅用了三个月,说明这种慢思考、强化学习的模式进展比原来预训练的模式要快很多。
o3的这种新范式有可能成为人工智能新一代的突破点。
在这方面国内像360等很多厂商都已经推出了相应的方案。所以我觉得只要算力上没有问题,中国的跟进会很快。