+关注

手机看

微信扫一扫，随时随地看

OpenAI最便宜模型GPT-4.1发布，百万级上下文、多模态完爆4o

AI先锋官官方

2025-04-15 08:17发布于北京

+关注

作者｜子川

来源｜AI先锋官

刚刚，OpenAI一口气在API中推出三款新模型:GPT-4.1、GPT-4.1 mini和 GPT-4.1 nano。

划重点：

GPT-4.1系列是多模态模型，不过只能通过 API 使用。
GPT-4.1系列全面优于 GPT-40 和 GPT-4o mini。
GPT-4.1的指令跟随、编码和智能方面的功能已经整合到最新版本的GPT-4o 中，OpenAI表示后续会将更多GPT-4.1的功能整合到GPT-4o。
支持100万Token,是GPT-4o的8倍。
GPT-4.1 nano是OpenAI史上最快、最便宜的模型。
知识库截至时间是2024年6月。

我们先来看一下GPT-4.1的跑分成绩。

在 SWE-bench Verified（衡量真实世界软件工程技能的指标）中，GPT-4.1取得了 54.6% 的成绩，相较于 GPT-4o 提高了 21.4 个百分点，比 GPT-4.5 提高了 26.6 个百分点。

在 Scale 的 MultiChallenge 基准测试（衡量指令遵循能力的一项指标）中，GPT-4.1 的得分为 38.3%，比 GPT-4o 提高了 10.5 个百分点。

GPT-4.1 系列在图像理解方面表现也十分不错，尤其是 GPT-4.1 mini，它在图像基准测试中击败甚至击败了 GPT-4o。

在基于 30-60 分钟的无字幕长视频回答多项选择题中，GPT-4.1 在“长视频、无字幕”类别中得分为 72.0%，高于 GPT-4o 的 65.3%。

除了纸面实力比较抗打外，GPT-4.1的实际效果也不错。

相比GPT-4o，GPT-4.1 在前端编码方面有显著的提升，能够创建功能更强大且美观度更高的网页应用。在OpenAI内部的测试中，付费人类评审员在 80% 的情况下更喜欢 GPT-4.1 生成的网站，而不是 GPT-4o 生成的网站。

测试Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user's collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

GPT-4.1

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

GPT-4o

除了自家测试外，OpenAI还邀请了其他人进行测试GPT4.1的性能。

Windsurf（编程助手）在对GPT-4.1进行测试时，发现GPT-4.1 在 Windsurf 的内部编码基准上的得分比 GPT-4o 高 60%，他们的用户也指出，GPT-4.1在工具调用方面的效率提高了 30%。

同时GPT-4.1在Blue J最具挑战性的真实税务场景的内部基准测试中，GPT-4.1的准确率比GPT-4o高出53%。

最后就是大家最关心的价格了。

GPT-4.1每百万Token的输入价格是2美金，每百万Token的输出价格是8美金。

而号称OpenAI史上最便宜API的GPT-4.1-nano每百万Token的输入价格是0.1美金，每百万Token的输出价格是0.4美金。

价格跟Deepseek完全有的一拼。

而在近日，奥特曼最新访谈表示OpenAI将要推出最好的开源模型。

此次除了公布GPT4.1外，OpenAI还在直播中透露了关于GPT-4.5的计划：GPT-4.5 预览版将在三个月内从API中移除。

也就是会在2025 年 7 月 14 日关闭，给出的原因也很简单，GPT-4.1的性价比更高。

在GPT-4.1发布之前，OpenAI早已动作不断，预计还会发布完整的o3模型以及o4-mini，大家还可以继续蹲一波。

.END.

往期文章回顾

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。