GPT-4 即将退役，又有新模型曝光

浮之静

2025-04-12 16:12发布于美国科技领域创作者

新旧交替

从目前掌握的信息来看，GPT-4 的退役与 ChatGPT 新模型发布会同步进行。

GPT-4 即将退役

根据周四发布的更新日志（ChatGPT — Release Notes^[1]），OpenAI 将在本月底从 ChatGPT 中移除 GPT-4 模型，它是两年多前推出的模型（AI 里程碑：GPT-4 发布了！）。

OpenAI 表示，从 2025 年 4 月 30 日起，GPT-4 将被当前默认模型 GPT-4o “完全取代”。不过，GPT-4 仍可通过 OpenAI 的 API 使用。

OpenAI 在更新日志中写道：“在多项对比评估中，GPT-4o 在写作、编程、STEM 等方面持续超越 GPT-4。最近的升级进一步提升了 GPT-4o 的指令理解、问题解决能力和对话流畅度，使其成为 GPT-4 的自然继任者。”

GPT-4 于 2023 年 3 月在 ChatGPT 和微软的 Copilot 聊天机器人中首次推出。多个版本的 GPT-4 具备多模态能力，能够理解图像和文本——这是 OpenAI 首个广泛部署的此类模型。

Sam Altman（OpenAI CEO）曾表示，GPT-4 的训练成本超过 1 亿美元，其模型体积据称非常庞大。2023 年 11 月，GPT-4 被更快、更便宜的 GPT-4 Turbo 取代。GPT-4 也是 OpenAI 与《纽约时报》等出版商之间版权纠纷的核心模型之一。出版商指控 OpenAI 在未获授权的情况下使用他们的数据训练 GPT-4。OpenAI 则声称其行为受“合理使用”原则保护，无需承担责任。

新模型曝光

据 The Verge^[2] 援引多位知情人士报道，OpenAI 正准备推出一系列全新 AI 模型。其中最引人注目的是一个被称为 GPT-4.1 的模型，据称是目前旗舰模型 GPT-4o 的强化升级版本。

GPT-4o 是 OpenAI 于去年发布的多模态模型，支持实时处理文本、图像和音频。这次的新版本 GPT-4.1 很可能包括多个变体，如 GPT-4.1 mini 和 GPT-4.1 nano，最早将于下周发布。

与此同时，OpenAI 还准备发布完整版本的 o3 推理模型，以及更小型的 o4-mini，这两个模型有可能更早亮相。AI 工程师 Tibor Blaho^[3] 在最新的 ChatGPT 网页版本中，发现了对 o3、o4-mini 和 o4-mini-high 的引用，进一步佐证这些模型即将上线。

更确切的证据来自 OpenAI API 平台——其模型页面已经在为 GPT-4.1、GPT-4.1 mini、nano、o3 和 o4-mini 准备图标素材，基本可以确认这些模型的发布箭在弦上。

不过，这些模型的发布节奏仍可能受限于算力问题。Sam Altman 曾在 X 上表示，用户应预期 OpenAI 的新发布会出现延迟、功能可能出错、服务偶尔缓慢，因为公司当前正面临严重的资源压力。他甚至戏称：“我们的 GPU 都快烧化了”，以回应免费用户蜂拥使用图像生成功能造成的系统过载。

在 OpenAI 最新发布的视频 Pre-Training GPT-4.5^[4] 中，奥特曼还抛出一个引人深思的问题：“如果你们可以随意组队，依靠我们现有的知识、资源和系统，从零重新训练 GPT-4，OpenAI 最小能完成这个任务的团队会是谁？”

这句话暗示了 OpenAI 正在持续精简模型训练流程与资源需求，同时也预示着更高效、轻量级的模型正在路上。

OpenAI 模型家族

昨天发的那篇文章 ChatGPT 记忆增强，AI 更懂我了！里就提到了接下来可能会出的几个新模型，如 o4、o4-mini 等，结果群里有小伙伴把它和 4o、4o-mini 搞混了。借着新旧模型交替之际，我感觉有必要具体聊聊 OpenAI 模型系列。

如果你订阅了付费的 ChatGPT 计划（Plus、Pro、Team 或 Enterprise），可以在以下模型之间切换：GPT-4.5（目前最新最强，成本也最高，Plus 也被严重限额）、GPT-4o、o1、o3-mini、o3-mini-high、GPT-4o-mini、GPT-4（将在 4 月 30 日退役）。o1-pro 模型仅在订阅了 Pro 计划时才有。

免费用户就没啥选择了，只有一个默认的 ChatGPT 模型。

模型家族

随着技术的迭代，新模型往往拥有更强性能和更低价格，老模型丧失价值，就会逐步退役。比如 GPT-3.5 很早就退役了，而 GPT-4 也将在这个月底退役。曾经号称最强、最智能的大模型早已被 GPT-4.5、o1 之类模型所取代，只能默默地藏在角落里（在选择更多模型的二级菜单里才能找到）。

ChatGPT 只是 OpenAI 包装组合众多模型给普通用户使用的一个具体产品（比如 Sora 也是一个独立的产品），所以能下拉选择的模型很有限，菜单里展示的模型并非 OpenAI 的全部。以下截图可以看到目前正在服役的主要大模型，有些以 API 形式存在，有些早已混入到 ChatGPT 的某些功能中（比如绘画、图像识别、语音对话等）。

模型对比

了解完以上模型，我们再来聊聊目前常用模型，下面两张参数对比图可以看出许多有意思的东西。

目前最常用的模型就是 gpt-4.5、gpt-4o 和 o1，gpt-4.5 虽强，但成本高的离谱，最具性价比的还是 gpt-4o。因 gpt-4.5 和 o1 成本都比较高，所以目前 Plus 用户仍处于限额状态。

o3-mini 和 4o-mini 都是轻量级模型，它们支持比 gpt-4 更长的上下文，更智能价格也更低。gpt-4 的时代已然落幕！

我们平时一直说 gpt-4o 是多模态，按照正常理解就是“同时支持图像、语音、文字的输入/输出”，但从以上图表可以看到 4o 是支持文字/图像输入，文字输出，并不支持图像输出，所以在 ChatGPT 里可能还用到了混合技术。

模型选择

GPT-4.5 预览版

GPT-4.5 是目前在对话方面最强大、最大规模的模型之一。该模型通过扩大预训练和后训练规模，提升了识别模式、建立联系和生成创意见解的能力，尽管它本身并不具备复杂推理功能。

初步测试显示，GPT-4.5 在交互体验上更加自然，知识面更广，能更好地理解用户意图，情商（EQ）也有所提升，适用于写作、编程、实用问题解决等任务，并减少了“幻觉”现象。

目前 GPT-4.5 仅作为研究预览版推出，开通 GhatGPT Plus 后可使用。

OpenAI o1/o1-mini：专注推理的模型

o1 系列是面向复杂问题（如研究、策略、编程、数学、科学）的推理模型（o1-mini 在 ChatGPT 中不可见）。尽管 GPT-4o 仍是大多数任务的首选，但 o1 系列在高难度任务中具有显著优势。

o1 / o3-mini 不支持以下功能，有使用限制：

记忆（Memory）
自定义指令（Custom Instructions）
GPTs 和 Discovering
语音交互（Voice）

若需要以上高级功能，需切换回 GPT-4o。此外，除 o1-pro 外，其他 o 系列模型都支持文件上传，而 o1-pro 目前仅支持图像上传。

OpenAI o3-mini：新一代高效推理模型

o3-mini 是 o 系列中最新成员，专为编码和复杂推理任务设计，兼具速度、效率与灵活性。

在推理能力上与 o1 相当甚至优于 o1
响应速度更快、成本更低
适合生产与开发双场景使用
支持 Web 搜索，可获取实时信息及相关网页链接

GPT-4o：旗舰多模态模型

GPT-4o 是 OpenAI 的旗舰模型，能实时处理文本、图像和音频。该模型可在 ChatGPT 的 Free、Plus、Pro、Team 和 Enterprise 版本中使用，也可通过 API 使用（文本 + 图像）。

ChatGPT 中的语音功能继续通过已有的 Voice Mode 实现。

GPT-4o mini：最快的模型

GPT-4o mini 是 OpenAI 当前最快的模型，适用于日常任务。所有用户都可使用。当免费用户使用 GPT-4o 超出限额时，会自动切换到 GPT-4o mini。

BrowseComp 测评

BrowseComp^[5]（检验浏览代理能力的评测基准）：随着 AI 代理在互联网浏览与知识获取方面的应用日趋广泛，高效的浏览代理必须能够搜寻并整合难以获取的信息，往往需要访问几十甚至上百个网站。现有的基准（如主要考察检索基本孤立事实的 SimpleQA）已经无法充分区分这些代理的优劣，比如具备浏览功能的 GPT-4o 在此类简单任务中几乎达到上限。为了评估 AI 代理在互联网中定位复杂、纠缠信息的真实能力，OpenAI 推出了一个名为 BrowseComp（“Browsing Competition”）的新基准，共包含 1,266 道难度较高的问题。该基准已经在 OpenAI 的 simple-evals^[6] GitHub 项目中开源，并配套了研究论文供参考。

OpenAI 将以下模型通过 BrowseComp 进行基准测试：

GPT-4o、GPT-4.5（均不具备浏览功能）：不具备浏览功能，准确率几乎为零，说明在需要多步推理或跨多个站点查找信息时，单纯依靠内部知识和有限推理无法应对 BrowseComp 的复杂问题。
OpenAI o1（中等体量，不具备浏览功能，但推理能力相对较强）：启用浏览后，准确率从 0.6% 提高到 1.9%，虽然有所提升，但整体仍较低。事实表明，仅具备浏览能力远远不够，模型还需要具备战略性推理思维，能够发现合适的搜索路径，并准确理解检索到的内容。
GPT-4o（带浏览功能）：虽然没有浏览功能，但在推理能力上胜过 GPT-4o，准确率明显更高。这表明一部分问题可以直接通过内部推理来解答，而无需在线信息。
Deep Research（经过专门训练，能够进行持续网页浏览的代理模型）：在所有模型中表现最佳，能解答大约一半的问题。它具备持续搜索、多源信息整合以及自适应搜索策略等特性，能够高效解决许多跨站点、多跳检索的复杂问题。通过整合大量在线信息，并在搜索过程中根据检索结果进行调整，Deep Research 尤其擅长处理那些内容小众、答案不直观且需要多网站交叉验证的题目——这些正是 BrowseComp 想要重点考查的难点。

BrowseComp 与传统基准不同，专门针对难以检索、多步推理的问题设计。测试结果显示，浏览能力与推理能力同等重要；仅有浏览工具难以明显提高准确率，但若缺乏足够的推理能力，也难以利用浏览信息。Deep Research 将自主浏览与复杂推理结合，能在此高难度基准上实现显著领先的表现。

结语

GPT-4 退出历史舞台，更多新模型不断涌入。OpenAI 模型命名混乱，傻傻分不清楚。为了方便区分，我根据当前模型命名得出了一个规律：o 在前推理，在后多模态，带 mini 轻量级。大白话解释：o1、o3-mini、o3-mini-high 都是推理模型；gpt-4o、gpt-4o mini 都支持多模态输出（如图像输出）；模型中带 mini 的都是该模型的轻量级版本（成本更低，快速响应）。

「浮之静」频道

它只是微信群的补充形式，如果喜欢进微信群的朋友，仍可以在公众号内私信获取进群二维码（如：ChatGPT、Noi、程序员等）。

我目前已经创建了 40 多个微信群，包含 AI、程序员、Noi 等。微信群最大的优势是贴近日常，随时互动，但缺点也很明显，500 人数限制（200 人扫码限制），无法分类、内容无法沉淀等。为解决此问题，我决定创建一个「浮之静」QQ 频道（中国版 Discord）。它支持板块分类和讨论组，大家可以在里面评论互动，有点像范围更大的朋友圈或社区（国内版 Discord）。比较惊喜的是，它还支持微信小程序访问（搜索“腾讯频道”小程序），扫码或在公众号私信“频道”获取进入方式。

References

[1]

ChatGPT — Release Notes: https://help.openai.com/en/articles/6825453-chatgpt-release-notes

[2]

The Verge: https://www.theverge.com/news/646458/openai-gpt-4-1-ai-model

[3]

Tibor Blaho: https://x.com/btibor91

[4]

Pre-Training GPT-4.5: https://youtu.be/6nJZopACRuQ?si=2sbUd_YiwMPkSD4B

[5]

BrowseComp: https://openai.com/index/browsecomp

[6]

simple-evals: https://github.com/openai/simple-evals