新旧交替
从目前掌握的信息来看,GPT-4 的退役与 ChatGPT 新模型发布会同步进行。
GPT-4 即将退役
根据周四发布的更新日志(ChatGPT — Release Notes[1]),OpenAI 将在本月底从 ChatGPT 中移除 GPT-4 模型,它是两年多前推出的模型(AI 里程碑:GPT-4 发布了!)。
OpenAI 表示,从 2025 年 4 月 30 日起,GPT-4 将被当前默认模型 GPT-4o “完全取代”。不过,GPT-4 仍可通过 OpenAI 的 API 使用。
OpenAI 在更新日志中写道:“在多项对比评估中,GPT-4o 在写作、编程、STEM 等方面持续超越 GPT-4。最近的升级进一步提升了 GPT-4o 的指令理解、问题解决能力和对话流畅度,使其成为 GPT-4 的自然继任者。”
GPT-4 于 2023 年 3 月在 ChatGPT 和微软的 Copilot 聊天机器人中首次推出。多个版本的 GPT-4 具备多模态能力,能够理解图像和文本——这是 OpenAI 首个广泛部署的此类模型。
Sam Altman(OpenAI CEO)曾表示,GPT-4 的训练成本超过 1 亿美元,其模型体积据称非常庞大。2023 年 11 月,GPT-4 被更快、更便宜的 GPT-4 Turbo 取代。GPT-4 也是 OpenAI 与《纽约时报》等出版商之间版权纠纷的核心模型之一。出版商指控 OpenAI 在未获授权的情况下使用他们的数据训练 GPT-4。OpenAI 则声称其行为受“合理使用”原则保护,无需承担责任。
新模型曝光
据 The Verge[2] 援引多位知情人士报道,OpenAI 正准备推出一系列全新 AI 模型。其中最引人注目的是一个被称为 GPT-4.1 的模型,据称是目前旗舰模型 GPT-4o 的强化升级版本。
GPT-4o 是 OpenAI 于去年发布的多模态模型,支持实时处理文本、图像和音频。这次的新版本 GPT-4.1 很可能包括多个变体,如 GPT-4.1 mini 和 GPT-4.1 nano,最早将于下周发布。
与此同时,OpenAI 还准备发布完整版本的 o3 推理模型,以及更小型的 o4-mini,这两个模型有可能更早亮相。AI 工程师 Tibor Blaho[3] 在最新的 ChatGPT 网页版本中,发现了对 o3、o4-mini 和 o4-mini-high 的引用,进一步佐证这些模型即将上线。
更确切的证据来自 OpenAI API 平台——其模型页面已经在为 GPT-4.1、GPT-4.1 mini、nano、o3 和 o4-mini 准备图标素材,基本可以确认这些模型的发布箭在弦上。
不过,这些模型的发布节奏仍可能受限于算力问题。Sam Altman 曾在 X 上表示,用户应预期 OpenAI 的新发布会出现延迟、功能可能出错、服务偶尔缓慢,因为公司当前正面临严重的资源压力。他甚至戏称:“我们的 GPU 都快烧化了”,以回应免费用户蜂拥使用图像生成功能造成的系统过载。
在 OpenAI 最新发布的视频 Pre-Training GPT-4.5[4] 中,奥特曼还抛出一个引人深思的问题:“如果你们可以随意组队,依靠我们现有的知识、资源和系统,从零重新训练 GPT-4,OpenAI 最小能完成这个任务的团队会是谁?”
这句话暗示了 OpenAI 正在持续精简模型训练流程与资源需求,同时也预示着更高效、轻量级的模型正在路上。
OpenAI 模型家族
昨天发的那篇文章 ChatGPT 记忆增强,AI 更懂我了! 里就提到了接下来可能会出的几个新模型,如 o4、o4-mini 等,结果群里有小伙伴把它和 4o、4o-mini 搞混了。借着新旧模型交替之际,我感觉有必要具体聊聊 OpenAI 模型系列。
如果你订阅了付费的 ChatGPT 计划(Plus、Pro、Team 或 Enterprise),可以在以下模型之间切换:GPT-4.5(目前最新最强,成本也最高,Plus 也被严重限额)、GPT-4o、o1、o3-mini、o3-mini-high、GPT-4o-mini、GPT-4(将在 4 月 30 日退役)。o1-pro 模型仅在订阅了 Pro 计划时才有。
免费用户就没啥选择了,只有一个默认的 ChatGPT 模型。
模型家族
随着技术的迭代,新模型往往拥有更强性能和更低价格,老模型丧失价值,就会逐步退役。比如 GPT-3.5 很早就退役了,而 GPT-4 也将在这个月底退役。曾经号称最强、最智能的大模型早已被 GPT-4.5、o1 之类模型所取代,只能默默地藏在角落里(在选择更多模型的二级菜单里才能找到)。
ChatGPT 只是 OpenAI 包装组合众多模型给普通用户使用的一个具体产品(比如 Sora 也是一个独立的产品),所以能下拉选择的模型很有限,菜单里展示的模型并非 OpenAI 的全部。以下截图可以看到目前正在服役的主要大模型,有些以 API 形式存在,有些早已混入到 ChatGPT 的某些功能中(比如绘画、图像识别、语音对话等)。
模型对比
了解完以上模型,我们再来聊聊目前常用模型,下面两张参数对比图可以看出许多有意思的东西。
目前最常用的模型就是 gpt-4.5、gpt-4o 和 o1,gpt-4.5 虽强,但成本高的离谱,最具性价比的还是 gpt-4o。因 gpt-4.5 和 o1 成本都比较高,所以目前 Plus 用户仍处于限额状态。
o3-mini 和 4o-mini 都是轻量级模型,它们支持比 gpt-4 更长的上下文,更智能价格也更低。gpt-4 的时代已然落幕!
我们平时一直说 gpt-4o 是多模态,按照正常理解就是“同时支持图像、语音、文字的输入/输出”,但从以上图表可以看到 4o 是支持文字/图像输入,文字输出,并不支持图像输出,所以在 ChatGPT 里可能还用到了混合技术。
模型选择
GPT-4.5 预览版
GPT-4.5 是目前在对话方面最强大、最大规模的模型之一。该模型通过扩大预训练和后训练规模,提升了识别模式、建立联系和生成创意见解的能力,尽管它本身并不具备复杂推理功能。
初步测试显示,GPT-4.5 在交互体验上更加自然,知识面更广,能更好地理解用户意图,情商(EQ)也有所提升,适用于写作、编程、实用问题解决等任务,并减少了“幻觉”现象。
目前 GPT-4.5 仅作为研究预览版推出,开通 GhatGPT Plus 后可使用。
OpenAI o1/o1-mini:专注推理的模型
o1 系列是面向复杂问题(如研究、策略、编程、数学、科学)的推理模型(o1-mini 在 ChatGPT 中不可见)。尽管 GPT-4o 仍是大多数任务的首选,但 o1 系列在高难度任务中具有显著优势。
o1 / o3-mini 不支持以下功能,有使用限制:
记忆(Memory) 自定义指令(Custom Instructions) GPTs 和 Discovering 语音交互(Voice)
若需要以上高级功能,需切换回 GPT-4o。此外,除 o1-pro 外,其他 o 系列模型都支持文件上传,而 o1-pro 目前仅支持图像上传。
OpenAI o3-mini:新一代高效推理模型
o3-mini 是 o 系列中最新成员,专为编码和复杂推理任务设计,兼具速度、效率与灵活性。
在推理能力上与 o1 相当甚至优于 o1 响应速度更快、成本更低 适合生产与开发双场景使用 支持 Web 搜索,可获取实时信息及相关网页链接
GPT-4o:旗舰多模态模型
GPT-4o 是 OpenAI 的旗舰模型,能实时处理文本、图像和音频。该模型可在 ChatGPT 的 Free、Plus、Pro、Team 和 Enterprise 版本中使用,也可通过 API 使用(文本 + 图像)。
ChatGPT 中的语音功能继续通过已有的 Voice Mode 实现。
GPT-4o mini:最快的模型
GPT-4o mini 是 OpenAI 当前最快的模型,适用于日常任务。所有用户都可使用。当免费用户使用 GPT-4o 超出限额时,会自动切换到 GPT-4o mini。
BrowseComp 测评
BrowseComp[5](检验浏览代理能力的评测基准):随着 AI 代理在互联网浏览与知识获取方面的应用日趋广泛,高效的浏览代理必须能够搜寻并整合难以获取的信息,往往需要访问几十甚至上百个网站。现有的基准(如主要考察检索基本孤立事实的 SimpleQA)已经无法充分区分这些代理的优劣,比如具备浏览功能的 GPT-4o 在此类简单任务中几乎达到上限。为了评估 AI 代理在互联网中定位复杂、纠缠信息的真实能力,OpenAI 推出了一个名为 BrowseComp(“Browsing Competition”)的新基准,共包含 1,266 道难度较高的问题。该基准已经在 OpenAI 的 simple-evals[6] GitHub 项目中开源,并配套了研究论文供参考。
OpenAI 将以下模型通过 BrowseComp 进行基准测试:
- GPT-4o、GPT-4.5(均不具备浏览功能) :不具备浏览功能,准确率几乎为零,说明在需要多步推理或跨多个站点查找信息时,单纯依靠内部知识和有限推理无法应对 BrowseComp 的复杂问题。
- OpenAI o1(中等体量,不具备浏览功能,但推理能力相对较强) :启用浏览后,准确率从 0.6% 提高到 1.9%,虽然有所提升,但整体仍较低。事实表明,仅具备浏览能力远远不够,模型还需要具备战略性推理思维,能够发现合适的搜索路径,并准确理解检索到的内容。
- GPT-4o(带浏览功能):虽然没有浏览功能,但在推理能力上胜过 GPT-4o,准确率明显更高。这表明一部分问题可以直接通过内部推理来解答,而无需在线信息。
- Deep Research(经过专门训练,能够进行持续网页浏览的代理模型):在所有模型中表现最佳,能解答大约一半的问题。它具备持续搜索、多源信息整合以及自适应搜索策略等特性,能够高效解决许多跨站点、多跳检索的复杂问题。通过整合大量在线信息,并在搜索过程中根据检索结果进行调整,Deep Research 尤其擅长处理那些内容小众、答案不直观且需要多网站交叉验证的题目——这些正是 BrowseComp 想要重点考查的难点。
BrowseComp 与传统基准不同,专门针对难以检索、多步推理的问题设计。测试结果显示,浏览能力与推理能力同等重要;仅有浏览工具难以明显提高准确率,但若缺乏足够的推理能力,也难以利用浏览信息。Deep Research 将自主浏览与复杂推理结合,能在此高难度基准上实现显著领先的表现。
结语
GPT-4 退出历史舞台,更多新模型不断涌入。OpenAI 模型命名混乱,傻傻分不清楚。为了方便区分,我根据当前模型命名得出了一个规律:o 在前推理,在后多模态,带 mini 轻量级。大白话解释:o1、o3-mini、o3-mini-high 都是推理模型;gpt-4o、gpt-4o mini 都支持多模态输出(如图像输出);模型中带 mini 的都是该模型的轻量级版本(成本更低,快速响应)。
「浮之静」频道
它只是微信群的补充形式,如果喜欢进微信群的朋友,仍可以在公众号内私信获取进群二维码(如:ChatGPT、Noi、程序员等)。
我目前已经创建了 40 多个微信群,包含 AI、程序员、Noi 等。微信群最大的优势是贴近日常,随时互动,但缺点也很明显,500 人数限制(200 人扫码限制),无法分类、内容无法沉淀等。为解决此问题,我决定创建一个「浮之静」QQ 频道(中国版 Discord)。它支持板块分类和讨论组,大家可以在里面评论互动,有点像范围更大的朋友圈或社区(国内版 Discord)。比较惊喜的是,它还支持微信小程序访问(搜索“腾讯频道”小程序),扫码或在公众号私信“频道”获取进入方式。
References
ChatGPT — Release Notes: https://help.openai.com/en/articles/6825453-chatgpt-release-notes
[2]The Verge: https://www.theverge.com/news/646458/openai-gpt-4-1-ai-model
[3]Tibor Blaho: https://x.com/btibor91
[4]Pre-Training GPT-4.5: https://youtu.be/6nJZopACRuQ?si=2sbUd_YiwMPkSD4B
[5]BrowseComp: https://openai.com/index/browsecomp
[6]simple-evals: https://github.com/openai/simple-evals