今天已经发布了o1-full和o1-pro。带来了更好的Coding能力,且o1-pro接受图片输入,对应更好的VLM视觉模型。虽然关于测评和200美金的价格争议很多,但正如Noam Brown说的,更重要是从o1-preview到o1 pro,2个月时间的边际进步速度。
后面还会发布什么?我们基于海外讨论、OpenAI已发布的研究成果和专利,作以下推测:
1. Agent,可能是这12天最大亮点。可能不仅是一个agent,而是多agent体系。
首先有一个Agent驱动基座模型,实现长的CoAT(思维动作链)。OpenAI有过一个工作叫Agent Executor Chain,通过HTML和截图解析,借助GPT-4o足够长的输入token,生成长动作指令。
基于这个Agent驱动基座模型,可以微调出不同的Agent LLM。如海外曝光的下图,panda, tiger, Viper,whale等等动物名和元素名,可能对应多种多样的agent LLM
基于此,还看到OpenAI有一个叫“swarm虫群”的软件框架,可以组合Agent模型、多Agent编排、Agent间通信、外部和内部数据库耦合。
此外, OpenAI过去的工作似乎实现了一种认知架构,信息的工作记忆、长期记忆,动作空间的内部、外部动作,决策的交互循环、规划和执行、任务分解决策树。AISI UK写了一篇关于长期任务的新闻稿,OpenA可能已经实现长期稳定的执行Agent,不是十几步,而是几百步。
2. Sora可玩版本。OpenAI 10月份发过一个sCM(Simplifying Continuous-Time Consistency Models ),相比扩散模型的图像生成速度提升50倍,可能解决sora成本的老大难问题
3. GPT-4.5。有可能就是GPT-4o的增强版,更新了知识截止日期,更多的post-train强化学习,降低了幻觉。这可能也不算GPT-5的Preview。
到这里,OpenAI的模型家族可能出现三条线:LLM知识模型(GPT系列),LRM推理模型(o1系列),LAM动作模型(Agent系列)
4. VLM的real time,实时的视觉模型。这个会非常适合端侧比如眼镜、机器人视觉方面的AI应用
5. OpenAI浏览器。简单做个换皮的浏览器对于OpenAI来说不够重磅。其他家的浏览器Agent通过扩展实现,权限是请求浏览器,再到操作系统。如果单独做浏览器,就可以直接请求到操作系统,从而和ChatGPT客户端联动,甚至是替代。浏览器是大多数人用的最多的软件,可以绑定SearchGPT来进行多模态搜索和生成上下文搜索。从浏览器做AI流量入口是最合适的,有足够的权限做交互。
6. Fine tuning(可能今晚就是)。团队做了更细粒度的方案提供结构化API调用,为Agent模块开发做准备,而不是仅提供输出JSON的能力。然后是让开发者可以通过API调用o1的结构化输出和函数调用。
7. SearchGPT的多模态查询。人们在搜索时可能不知道名字和概念,模棱两可的形容,对于搜索引擎来说是无效的。所以思路是生成一个图像,让图像和搜素结果关联,用图像、prompt、特征识别和文本作为查询信息。
8. 代码编辑器。最近Editor Agent的Bolt、WindSurf,尤其是Cursor非常火。考虑到Anthropic Sonnet已经成了coding的领头羊,OpenAI可能会有动作。
其他还可能有NSFW(文字对话游戏)、V2A(视频转音频)、Robotics模型、Enterprise版本增强、其他格式输出等小技巧。储备了这么久,应用方面铺了这么多人和卡,东西很多的,就看能否点燃大家的想象力了。目前看sora已经没什么预期差(之前demo过于惊艳了),GPT-5这次不会有的(可能真有preview?不确定),GPT-4.5依然是LLM老范式下的成果。更大的惊喜或者能给想象力的,可能就是agent。