划重点
012024年,人工智能发展在技术范式、多模态能力和应用形态方面取得关键进展。
02OpenAI的o系列模型实现了类人的“系统2”能力,从直觉反应到深度思考的跃迁。
03多模态能力方面,视频生成模型如Sora、Veo2等取得突破,使AI能真正理解和模拟立体世界。
04应用形态上,AI Agent如Anthropic的Computer Use、智谱AI的AutoGLM等展现出强大的自主行动能力。
05此外,AI编程工具如Cursor和Devin实现革命性突破,提升开发效率和工程能力。
以上内容由腾讯混元大模型生成,仅供参考
在硅谷101号公路旁,谷歌总部以南不到十分钟车程的地方,坐落着一座不太起眼的博物馆。从这里向北眺望,能看到Meta的蓝色标志,向南远眺,是苹果的太空环。
在科技巨头的包围中,像一位沉默的长者,注视着周围新旧交替的浪潮,记录人类文明最壮丽的生长。
这里是计算机历史博物馆,在幽静的展厅里,一个古老的算盘和一段打着绳结的麻绳,讲述着人类最原始的梦想:计算与连接。
2024年,这两条线索在人工智能的浪潮中,终于完全交织在了一起。AI不仅在计算,更在创造;不仅在传递信息,更在理解和转化信息。当机器开始展现出类人的思维能力,曾经分立的计算与连接,在大模型中获得了新的统一。
这是一个奇特的时刻:计算变成了对话,数据化作了智慧。自ChatGPT发布以来的人工智能的发展,已经远远超出了人类的预期。
我们在年末回望,市场的关注焦点,从去年基础模型能力的提升,到今年模型的落地应用和场景化。AI的能力需要转化为实际的产品和服务,满足用户需求才是核心。这背后,是AI产业经历了从“训练时代”向“推理时代”的转变。
本文将详述我们看到的AI发展三个关键维度可能性,与各位共享:
一、技术范式的革新。当传统的Scaling Law遭遇瓶颈,OpenAI的o系列模型开创了新的道路——从大力出奇迹的“快思考”到“慢思考”训推双管齐下。
二、多模态能力的跃迁。从Sora的视频生成到原生多模态的崛起,再到世界模型的尝试,AI开始真正理解和模拟这个立体的世界。
三、应用形态的重构。AI Agent的突破让行业看到更多可能性——机器人获得自主行动能力的新方向,而AI编程工具的进展,也许预示着人机协作模式的变革。
2024 AI 关键进展时间线
2月
OpenAI发布视频生成模型Sora,首次实现高质量文本生成视频,开创AI视频生成新纪元
3月
Suno发布V3版本,AI音乐生成方向进入生产力可用状态(production ready)
4月
Meta发布高性能开源大模型Llama-3,降低了AI技术的准入门槛
5月
GPT-4发布
Ray-Ban与Meta合作的智能眼镜销量突破百万
字节上线即梦AI
6月
快手发布可灵
Apple Intelligence发布
9月
OpenAI发布 o1 预览版
10月
Rosetta和AlphaFold算法的研发者因在蛋白质结构设计和预测中的突破性贡献获得诺贝尔化学奖
约翰·霍普菲尔德和杰弗里·辛顿因人工神经网络和深度学习的开创性贡献获诺贝尔物理学奖
Anthropic 大模型 Claude 3.5 Sonnet获得“computer use”功能
12月
OpenAI 发布 o3 系列模型
技术范式的演进
Scaling Law效果放缓是2024年贯穿整年的争论。
Scaling Law(规模定律)指的是在模型预训练中,只要三个关键因素——模型大小、数据量、训练时间(计算量)不断增长,模型性能就能大斜率指数级爆发式提升。足够的规模带来——“涌现”,即自发地产生复杂智能,完成复杂问题的推理、并形成非同分布下的泛化性提升。
相信Scaling Law,是OpenAI的梦幻发展和这一代大模型能力梦幻提升的起点。
而2024年整年,一个争论笼罩着AI界——Scaling Law是正确的,但在现实中,Scaling Law是不是已经触及天花板?
算力需求已经达到惊人规模,xAI正在建设10万卡数据中心;基础设施跟不上发展速度,OpenAI提出的5吉瓦数据中心计划几乎相当于纽约州五分之一的居民用电量;最关键的是,正如OpenAI前首席科学家Ilya Sutskever所言,优质数据已接近极限。而合成数据训练的“近亲繁殖”问题,更可能过拟合导致模型能力的长期衰退。
然而,OpenAI的o系列模型带来了转机。
人类对AGI的追求,莫不如说是人类对完全创造另一个“人类”的疯狂幻想,而要让模型“思考”,最重要的是“大脑”。研究人员相信,人的思考其实是细微电流通过神经元,因此如果有足够大、足够接近人脑的人工神经网络,它就可以实现人脑的工作——思考。
在人类心理学中,诺贝尔经济学奖得主丹尼尔·卡尼曼提出了著名的“系统1”和“系统2”理论:人类的思维过程分为快速、直觉的“系统1”和缓慢、深思熟虑的“系统2”。
在o1模型出现之前,所有的大语言模型本质上都是“快思考”系统。它们的工作方式是:
一次性生成:输入问题后直接生成答案,类似于人类的直觉
反应线性思维:按照预设的模式直接处理信息,缺乏反思和迭代
信心盲区:难以判断自己答案的可靠性,也无法主动修正错误
这种“快思考”模式,就像一个博览群书但缺乏深度思考能力的学者——知识渊博,反应迅速,但难以进行真正的创造性思维。
在处理日常对话、简单查询等任务时,这种模式运作良好。但当面对需要深度推理的问题时,它的局限性就会显现:缺乏自我反思,无法进行多角度分析,也不具备纠正错误的能力。就像柏拉图所说的洞穴中的囚徒,它们被困在自己的“知识洞穴”中,只能看到现象的影子。
OpenAI的o系列突破的核心在于实现了类人的“系统2”能力——从直觉反应到深度思考的跃迁。多数研究分析者认为,OpenAI通过将Self-Play强化学习与思维链(Chain of Thought)结合,从而使o1模型首次展现出了真正的推理能力。它不再是简单的信息处理工具,而是能够进行自我对话、多角度分析和自我质疑的思考者。在MMLU等权威测试中的持续突破,印证了这一技术路线的有效性。
技术专家普遍认为,这一突破背后采用了两个关键技术:
蒙特卡洛树搜索(MCTS):借鉴AlphaGo的成功经验,通过多路径推理和评估来优化决策质量。
过程奖励模型(PRM):突破传统RLHF仅关注结果的局限,实现对思维过程的精细化训练指导。
曾经惊艳众人的AlphaGo,AlphaZero AI下棋应用,在其背后的方法上就非常倚重蒙特卡洛树搜索方法。
蒙特卡洛树搜索通过四个步骤迭代工作:选择(从根节点开始选择最有希望的行动)、扩展(添加新的可能状态)、模拟(从新节点随机播放直到游戏结束)和回传(将结果反向传播更新节点价值)。在AlphaGo中,MCTS与深度神经网络相结合,使用策略网络来指导搜索,使用价值网络来评估局面,从而更高效地找到最优解。
而平移到大语言模型中,o1很可能是通过一个大语言模型,同时生成多个推理角度,而由另一个大模型作为奖励模型(reward model)来给出打分评价,一定次数后更新大语言模型的权重,记住做得更好的推理方式。
这个可以进行打分评价的模型,就是过程奖励模型(PRM,Process Reward Model)。OpenAI 提出verify step-by-step,对大模型每一步的思考进行正确或错误的反馈,比起基于人类反馈的强化学习(RLHF)只对结果进行反馈,能够给大模型更密集的训练。
此外,技术专家还推测,OpenAI前期还使用了人工标注的思考过程数据。而后期,则利用合成数据的方法训练。结合前面提到的蒙特卡洛树的方法,一个可能性是,找到一个人工标注过的问题,然后使用MCTS树搜索方式去补齐后续推理过程,每个片段跑多次,都变成合成数据来训练AI。
更重要的是,o系列模型重构了训练范式,将GPU资源在预训练、后训练和推理之间做出了更均衡的分配,从传统的9:1:0优化至1:1:1。这种创新不仅提高了算力利用效率,也为突破预训练数据天花板(20-30T)提供了新思路。
随着o1模型的发布,OpenAI也发布了一条新的Scaling Law:随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1的性能能持续提高。
从o1到o3的快速进化,证明了新的Scaling Law的有效。
在ARC-AGI测试中,o3模型达到了87.5%的准确率,几乎与人类水平(85%)相当。这意味着在适应未知任务方面,AI已经具备了接近人类的能力。
我们无法通过给GPT-4增加更多计算量,来获得这样的结果。简单地扩大我们从2019年到2023年所做的事情(采用相同的架构,在更多数据上训练一个更大的版本)是不够的。而这一次,OpenAI找到了全新的思路。
o系列模型能够进行自我对话、多角度分析和自我质疑,最终得出更可靠的答案。它不再仅仅是一个信息处理工具,而是开始具备了某种程度的“思考意识”。虽然这距离完全的自我意识还很遥远,但已经展示出了朝着这个方向演进的潜力。
包括Google在内的AI公司,已经都看到这个方向的潜力,正在奋力追赶。而这条路,起码还可以狂奔一整年。
Scaling Law的另一端
在关注大模型的能力极限的时候,一个容易被忽视的关键进展是,2024年,我们也看到了模型参数效率出现了很强的突破——即随着模型的代际更迭,原本在前一代模型最大参数量的版本才能完成的能力,不断被后一代模型的“轻量级模型”版本追平。通常这样的“轻量级模型”要比“大模型”的版本参数量低1-2个数量级。
比如12月,Google发布的Gemini 2.0 Flash,在重要的基准能力上,直接追平甚至部分超越了Gemini 1.5 Pro,而同时,模型的速度有极大提升。
OpenAI也表示,下一代o3-mini模型的推理能力,能够媲美o1模型——可以说是当前最强的模型。
轻量级模型的代际能力跃升的原因可能是多重的,一个常常为人所提到的原因是,蒸馏技术的使用。
使用知识蒸馏的训练方法,大模型作为教师模型,轻量级模型作为学生模型,轻量级模型通过模仿大模型的行为进行训练。轻量级模型不仅学习任务的真实标签,还学习大模型生成的软标签,能够“站在巨人的肩膀上”学习。
轻量级模型的基础能力越来越强,意味着同样的能力,模型能够越来越快、成本越来越低地实现,这对2025年的AI应用生态可能有着不小的意义。
另一个值得瞩目的进展是,12 月的发布中,OpenAI推出了强化微调技术,使用极少训练数据即在特定领域轻松地创建专家模型。使用几十到几千个高质量数据,微调后的o1-mini模型得分提高80%,能直接反超o1正式版。
使用强化微调,轻量级模型能够通过精选数据的训练,直接超越同代大模型的表现,这对垂直领域的未来的模型应用,也将产生很大影响。
多模态能力跃迁
Transformer架构无往而不利
AI应用的基座已经搭好
物理世界的数字映射可能
应用形态重构
Long horizon task长期任务执行:就像一个称职的项目经理,Agent现在能够处理更复杂、跨度更长的任务。它不仅能够将大任务分解成可管理的小步骤,还能在执行过程中保持清晰的目标导向,适时调整策略。 多模态理解:Agent不再局限于单一的交流方式。它能同时理解文字、图像、声音,就像人类一样通过多种感官来理解世界。这种全方位的感知能力让它能更好地理解环境和任务上下文。 记忆与行动:通过先进的记忆机制,Agent能够像人类一样积累经验,从过去的交互中学习。它不仅能记住之前的对话,还能记住操作步骤和效果,这让它的行动更加精准和高效。 自适应学习:最令人惊叹的是Agent的学习能力。它能够从每次交互中吸取经验,不断完善自己的策略。这种进步不是简单的数据积累,而是真正的“智慧成长”。
AI编程工具的革命性突破
从Cursor到Devin
AI布道师、腾讯青藤AI及全球化项目经理 余一 读书人、Prompt布道师 李继刚 星贤文化创始人、AIIP《山海奇景》制作人 陈坤 及其他匿名AI探索家