客户端
游戏
无障碍

0

评论

收藏

分享

手机看

微信扫一扫,随时随地看

OpenAI最便宜模型GPT-4.1发布,百万级上下文、多模态完爆4o

作者|子川

来源AI先锋官


刚刚,OpenAI一口气在API中推出三款新模型:GPT-4.1、GPT-4.1 mini和 GPT-4.1 nano。

图片

划重点:

  • GPT-4.1系列是多模态模型, 不过只能通过 API 使用。

  • GPT-4.1系列全面优于 GPT-40 和 GPT-4o mini。

  • GPT-4.1的指令跟随、编码和智能方面的功能已经整合到最新版本的GPT-4o 中,OpenAI表示后续会将更多GPT-4.1的功能整合到GPT-4o。

  • 支持100万Token,GPT-4o8倍。

  • GPT-4.1 nano是OpenAI史上最快、最便宜的模型。

  • 知识库截至时间是2024年6月。

我们先来看一下GPT-4.1的跑分成绩。

在 SWE-bench Verified(衡量真实世界软件工程技能的指标)中,GPT-4.1取得了 54.6% 的成绩,相较于 GPT-4o 提高了 21.4 个百分点,比 GPT-4.5 提高了 26.6 个百分点。

图片

在 Scale 的 MultiChallenge 基准测试(衡量指令遵循能力的一项指标)中,GPT-4.1 的得分为 38.3%,比 GPT-4o 提高了 10.5 个百分点。

图片

GPT-4.1 系列在图像理解方面表现也十分不错,尤其是 GPT-4.1 mini,它在图像基准测试中击败甚至击败了 GPT-4o。

图片

在基于 30-60 分钟的无字幕长视频回答多项选择题中,GPT-4.1 在“长视频、无字幕”类别中得分为 72.0%,高于 GPT-4o 的 65.3%。

图片

除了纸面实力比较抗打外,GPT-4.1的实际效果也不错。

相比GPT-4o,GPT-4.1 在前端编码方面有显著的提升,能够创建功能更强大且美观度更高的网页应用。在OpenAI内部的测试中,付费人类评审员在 80% 的情况下更喜欢 GPT-4.1 生成的网站,而不是 GPT-4o 生成的网站。

测试Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user's collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

GPT-4.1

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

GPT-4o


除了自家测试外,OpenAI还邀请了其他人进行测试GPT4.1的性能。

Windsurf(编程助手)在对GPT-4.1进行测试时,发现GPT-4.1 在 Windsurf 的内部编码基准上的得分比 GPT-4o 高 60%,他们的用户也指出,GPT-4.1在工具调用方面的效率提高了 30%。

同时GPT-4.1在Blue J最具挑战性的真实税务场景的内部基准测试中,GPT-4.1的准确率比GPT-4o高出53%。

最后就是大家最关心的价格了。

图片
GPT-4.1每百万Token的输入价格是2美金,每百万Token的输出价格是8美金。

而号称OpenAI史上最便宜API的GPT-4.1-nano每百万Token的输入价格是0.1美金,每百万Token的输出价格是0.4美金。

价格跟Deepseek完全有的一拼。

图片

而在近日,奥特曼最新访谈表示OpenAI将要推出最好的开源模型。

此次除了公布GPT4.1外,OpenAI还在直播中透露了关于GPT-4.5的计划:GPT-4.5 预览版将在三个月内从API中移除。

也就是会在2025 年 7 月 14 日关闭,给出的原因也很简单,GPT-4.1的性价比更高。

在GPT-4.1发布之前,OpenAI早已动作不断,预计还会发布完整的o3模型以及o4-mini,大家还可以继续蹲一波。


 .END.

往期文章回顾
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部