作者|子川
来源|AI先锋官
刚刚,OpenAI一口气在API中推出三款新模型:GPT-4.1、GPT-4.1 mini和 GPT-4.1 nano。
划重点:
GPT-4.1系列是多模态模型, 不过只能通过 API 使用。
GPT-4.1系列全面优于 GPT-40 和 GPT-4o mini。
GPT-4.1的指令跟随、编码和智能方面的功能已经整合到最新版本的GPT-4o 中,OpenAI表示后续会将更多GPT-4.1的功能整合到GPT-4o。
支持100万Token,是GPT-4o的8倍。
GPT-4.1 nano是OpenAI史上最快、最便宜的模型。
知识库截至时间是2024年6月。
我们先来看一下GPT-4.1的跑分成绩。
在 SWE-bench Verified(衡量真实世界软件工程技能的指标)中,GPT-4.1取得了 54.6% 的成绩,相较于 GPT-4o 提高了 21.4 个百分点,比 GPT-4.5 提高了 26.6 个百分点。
在 Scale 的 MultiChallenge 基准测试(衡量指令遵循能力的一项指标)中,GPT-4.1 的得分为 38.3%,比 GPT-4o 提高了 10.5 个百分点。
GPT-4.1 系列在图像理解方面表现也十分不错,尤其是 GPT-4.1 mini,它在图像基准测试中击败甚至击败了 GPT-4o。
在基于 30-60 分钟的无字幕长视频回答多项选择题中,GPT-4.1 在“长视频、无字幕”类别中得分为 72.0%,高于 GPT-4o 的 65.3%。
除了纸面实力比较抗打外,GPT-4.1的实际效果也不错。
相比GPT-4o,GPT-4.1 在前端编码方面有显著的提升,能够创建功能更强大且美观度更高的网页应用。在OpenAI内部的测试中,付费人类评审员在 80% 的情况下更喜欢 GPT-4.1 生成的网站,而不是 GPT-4o 生成的网站。
测试Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user's collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).
GPT-4.1
GPT-4o
除了自家测试外,OpenAI还邀请了其他人进行测试GPT4.1的性能。
Windsurf(编程助手)在对GPT-4.1进行测试时,发现GPT-4.1 在 Windsurf 的内部编码基准上的得分比 GPT-4o 高 60%,他们的用户也指出,GPT-4.1在工具调用方面的效率提高了 30%。
同时GPT-4.1在Blue J最具挑战性的真实税务场景的内部基准测试中,GPT-4.1的准确率比GPT-4o高出53%。
最后就是大家最关心的价格了。
而号称OpenAI史上最便宜API的GPT-4.1-nano每百万Token的输入价格是0.1美金,每百万Token的输出价格是0.4美金。
价格跟Deepseek完全有的一拼。
而在近日,奥特曼最新访谈表示OpenAI将要推出最好的开源模型。
此次除了公布GPT4.1外,OpenAI还在直播中透露了关于GPT-4.5的计划:GPT-4.5 预览版将在三个月内从API中移除。
也就是会在2025 年 7 月 14 日关闭,给出的原因也很简单,GPT-4.1的性价比更高。
在GPT-4.1发布之前,OpenAI早已动作不断,预计还会发布完整的o3模型以及o4-mini,大家还可以继续蹲一波。