客户端
游戏
无障碍

5

评论

15

21

手机看

微信扫一扫,随时随地看

全网吐槽,GPT-4.5不如DeepSeek?OpenAI首席研究官正面回应两者差异!(附视频)

AI划重点 · 全文约3968字,阅读需12分钟

1.OpenAI首席研究官Mark Chen正面回应GPT-4.5与DeepSeek的比较争议,强调两者在无监督学习和推理范式上有本质区别。

2.Chen表示,GPT-4.5在知识方面比推理模型更聪明,日常使用场景中,与GPT-4相比,人们更喜欢GPT-4.5。

3.然而,DeepSeek通过专家混合模型提高了效率,赢得了全球用户的赞誉与关注。

4.陈认为,大型模型与细分模型不是对立的,而是互补的,OpenAI既推动智能前沿,也希望让这些能力更便宜、更具成本效益服务于所有人。

5.此外,GPT-4.5在情感智能方面有显著改进,如创意写作和回应困难情况的查询。

以上内容由腾讯混元大模型生成,仅供参考

(关注公众号设为🌟标,获取AI深度洞察)

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X
GPT-4.5 推出一天,便在全球范围内引发了激烈讨论,甚至可以说是"群嘲"。不少用户在体验后纷纷表示,GPT-4.5 并没有带来预期的提升,甚至在某些方面不如 DeepSeek,引发了关于 OpenAI 技术路线的广泛质疑。与此同时,中国AI新秀DeepSeek凭借出色的效率和推理能力,赢得了全球用户的赞誉与关注。这场"美国老牌AI巨头VS中国后起之秀"的较量,让OpenAI陷入了前所未有的舆论压力。
面对质疑声浪,OpenAI首席研究官Mark Chen昨天接受了独家专访,正面回应了GPT-4.5与DeepSeek的比较争议。作为OpenAI迄今为止规模最大、知识储备最丰富的模型,GPT-4.5究竟与DeepSeek有何本质区别?两种技术路线各有何优劣?"在无监督学习中,你需要更多的计算、算法效率和数据。GPT-4.5证明了我们可以继续扩展这个范式。"Chen表示,"而且,这个范式与推理并不对立。你需要知识作为推理的基础,模型不能盲目地从零开始学习推理。"
当被问及DeepSeek通过专家混合模型提高效率的创新方法时,Chen坦言:"DeepSeek在推理堆栈上做得很好,我们也很重视以低成本服务用户。专家混合模型是语言模型的架构元素,几乎所有大型语言模型都在使用它,我们在GPT-4.5中也探索了这一技术及其他架构改进。"

完整文稿

主持人: Mark Chen 谢谢你能来。我们非常感谢你能在 GPT-4.5 这样的大新闻发布时参与进来。

Mark Chen: 是的,GPT-4.5 确实是我们可预测扩展范式中的最新里程碑。此前的模型,如 GPT-3、GPT-3.5 和 GPT-4,都符合这一范式,而 GPT-4.5 是最新的成果。它在性能上比之前的模型有了数量级的提升,类似于从 GPT-3.5 到 GPT-4 的飞跃。

                 一、GPT-4.5而非GPT-5?

主持人:  我想我们的听众最想问的问题,也是我们在过去几个月里讨论过的,就是为什么这不是 GPT-5?要达到 GPT-5 需要什么条件?

Mark Chen:  嗯,关于命名,我们总是试图与趋势保持一致。对于可预测的扩展,从 GPT-3 到 GPT-3.5,我们可以预测出训练模型所需的计算量和效率提升能带来什么。我们发现这个模型符合我们对“4.5”版本的预期,所以我们就这样命名了。

主持人:  但外界对 GPT-5 的讨论很多。如果我没记错,从 GPT-4 到 GPT-4.5 的等待时间比从 GPT-3.5 到 GPT-4 更长。这是由于 OpenAI 内部在 Twitter 上对下一个模型的炒作,还是因为这是世界上最没耐心的行业和用户群体?对 GPT-5 的期望似乎很高,你认为满足这些期望会很难吗?

Mark Chen:  我不认为会很难。根本原因是我们现在有两个不同的扩展轴。一个是无监督学习,GPT-4.5 是这个轴上的最新实验;另一个是推理。从 GPT-4 到 GPT-4.5 的发布时间间隔较长,主要是因为我们大力专注于开发推理范式。我们的研究项目是探索性的,我们在探索所有扩展模型的途径。在过去的一年半到两年里,我们通过推理发现了一个非常令人兴奋的新范式,并且也在扩展它。所以,GPT-5 可能会是许多成果的集大成。

主持人:  你提到推理,我们当然看到了 o1 和 DeepSeek 的热议。现在我们又在讨论一个更传统的大型语言模型 GPT-4.5。人们关心的是,当你增加更多计算、数据和能量时,AI 模型还能继续扩展吗?你对扩展极限的看法是什么?我们是否已经开始看到扩展的回报递减?

Mark Chen: 我对扩展有不同的看法。在无监督学习中,你需要更多的计算、算法效率和数据。GPT-4.5 证明了我们可以继续扩展这个范式。而且,这个范式与推理并不对立。你需要知识作为推理的基础,模型不能盲目地从零开始学习推理。所以,这两个范式是互补的,它们之间有反馈循环。GPT-4.5 在知识方面比推理模型更聪明。在日常使用场景中,与 GPT-4 相比,人们更喜欢 GPT-4.5,在生产力和知识工作方面的偏好率达到 60% 到 70%。人们对这个模型反应很好,我们未来可以利用这些知识来提升推理模型。

                    二、GPT-4.5的使用场景

主持人: 能举一些例子吗?在日常知识工作中,你会用 GPT-4.5 做什么,而不选择推理模型?

Mark Chen:  GPT-4.5 有不同的特性。作为一个更大的模型,它需要更多时间处理查询,但也能立即给你回应。这与 GPT-4 的功能很相似。而像 o1 这样的推理模型,你给它一个查询,它可能会思考几分钟。这是两种根本不同的权衡:一个模型立即回应,不做太多思考但给出更好的答案;另一个模型思考一段时间再回答。我们发现,在创意写作等领域,GPT-4.5 比推理模型更出色,我们将在未来一两个月内进一步测试。

主持人: 还有其他使用场景吗?

Mark Chen:  除了写作,还有编码和一些特定的科学领域,GPT-4.5 在展示知识量方面表现更优秀。

主持人: 关于扩展,我想问,在这个规模下,增加相同数量的计算和数据还能带来同样的回报吗?还是回报已经开始减少?

Mark Chen:  不,我们仍然看到同样的回报。我想强调,GPT-4.5 是无监督学习范式的下一个点。我们根据之前训练的所有模型预测性能,在这个案例中,我们整合了扩展机制,达到了下一个数量级的点。

主持人:  开发 GPT-4.5 的过程是怎样的?有报道说 OpenAI 不得不多次启动和停止才能让它成功。

Mark Chen:  实际上,开发所有基础模型都是实验性的。我们经常在某些阶段停下来分析情况,然后重新开始。这不是 GPT-4.5 独有的,我们对 GPT-4 和 o 系列模型也是这样做的。这些都是实验,我们会在中途诊断,如果需要干预就进行干预。但我不会说这是 GPT-4.5 特有的做法。

                  三、与 DeepSeek模型差异

主持人:  关于模型优化,DeepSeek 通过专家混合模型提高了效率。OpenAI 在这方面做了什么?你在 GPT-4.5 中做了类似的优化吗?如何更高效地运行这些大模型?

Mark Chen:  我认为让模型高效服务与开发核心能力是相对独立的。我们在推理堆栈上做了很多工作,DeepSeek 在这方面做得很好,我们也很重视以低成本服务用户。不管是 GPT-4 还是推理模型,我们一直在施加压力以更高效地运行模型。自从推出 GPT-4 以来,成本已经下降了好几个数量级。专家混合模型是语言模型的架构元素,几乎所有大型语言模型都在使用它,这种优化同样适用于 GPT-4、GPT-4.5 和推理模型的效率提升。我们在 GPT-4.5 中也探索了专家混合模型以及其他架构改进。

主持人:  在我们的 Discord 群里,最近大家一直在讨论小型和细分模型可能是未来。有人说:“对我来说,未来更多是细分模型融入工作流程,而不是这些通用的‘神模型’。”显然 OpenAI 有不同的看法。你如何看待大型模型与细分模型的关系?它们是对立的还是互补的?

Mark Chen:  我们也提供小型模型,比如 mini 模型,它们成本效益高,能以较低成本提供接近前沿的能力,我们认为这是全面产品组合的重要部分。但在 OpenAI,我们的核心业务是推动智能的前沿,开发我们能做到的最好模型。我们希望尽可能推动智能的前沿,总会有前沿智能的使用场景。比如在数学上从 99.9% 到世界最佳,这个差异对我们有意义。顶尖科学家能发现的东西与我们普通人能发现的截然不同。所以,我们既推动智能前沿,同时也希望让这些能力更便宜、更具成本效益服务于所有人。我们不认为细分模型会消失,我们希望构建基础模型,并找到如何随时间降低成本提供这些能力的方法。

                  四、通用大模型vs细分模型

主持人:  我们节目里经常争论什么更重要:产品还是模型。我支持模型,认为更好的模型能带来更多可能。但有时候我也不知道从数学 99% 到世界最佳能带来什么。你认为打造世界最佳模型能带来什么特别的东西?

Mark Chen:  打造最佳模型标志着能力的转变。如果只是用现有模型打造最佳产品,那是应该一直做的事情。三年前,这表现为 ChatGPT;今天,用最佳模型和能力打造产品更像是智能代理。推理和代理密切相关,一个好的代理是你可以放手让它做事,并相信它会给出你想要的结果。推理是驱动它的引擎。如果模型第一次尝试失败,它能分析为什么失败并找到更好的方法。提升模型能带来各种形式的代理,比如 Deep Research,它能为你生成关于任何话题的完整报告。我用它准备过一小时的演讲,它能综合信息、组织内容、得出结论,让你深入探索任何感兴趣的主题。如果模型更好,产品会自然变得更好。

主持人:  在离开前,我们快速聊聊 GPT-4.5 相比 GPT-4 的升级吧。你能简单介绍一下它在基准测试上的表现吗?另外,我读了你们的博客,感觉你们在说传统基准很重要,但也要关注情商(EQ)。为什么这两者要一起看?

Mark Chen:  在传统指标上,如 GP QA 和 MMLU,GPT-4.5 的提升与从 GPT-3.5 到 GPT-4 的跳跃相当。此外,我们注意到它在情感智能方面有显著改进。比如,它如何回应关于困难情况的查询,给出的建议更具情感智能。今天晚些时候的博客会有例子。它还能完美生成 ASCII 艺术,而之前的模型大多做不到。创意写作也展示了这种能力。它不会为每个回答写长篇大论,比如有人说“我很难过”,它会简洁地像人一样回应,而不是给出一堆自我护理建议。这体现了情感智能。我们认为,每次推出新模型都是使用场景的发现过程。GPT-4.5 达到了我们预期的基准,但我们也想知道用户会发现什么新价值。

                    五、GPT-4.5的情感表达

主持人:  可能会有人批评说,OpenAI 从关注传统基准转向情感智能,是在转移目标。你怎么回应?

Mark Chen:  我不认为这是准确的描述。GPT-4.5 达到了我们预期的基准。从 GPT-3 到 GPT-4.5 的发展证明了这一点。关键在于,每次推出新模型,我们都在探索用户会喜欢什么。就像推出 GPT-4 时,它达到了预期基准,但用户共鸣才是关键问题。今天我们也在问同样的问题:我们发现它更具情感智能,更擅长创意写作,但你们会发现什么?

主持人:  Mark,我在 OpenAI 的每次发布视频里都看到你,很高兴能和你现场对话。过去一年有报道说 OpenAI 人员流失严重,媒体可能夸大了,但我想知道在 OpenAI 工作是什么感觉?你如何看待公司的人才储备?你几个月前刚成为首席研究官,现在就有了新模型。

Mark Chen:  OpenAI 仍然是世界最顶尖的 AI 组织,我们的人才标准与其他公司有明显差距。AI 领域变化很快,可能比任何领域都快。三个月前的领域和之前都不一样。有些人会有自己的 AI 发展理论并尝试新路,这是健康的,也给内部人员展示机会。我们从不缺愿意站出来的人,我很喜欢我们的人才储备。

【往期回顾】

参考资料:https://www.youtube.com/watch?v=pdfI9MuxWq8&t=591s&ab_channel=AlexKantrowitz

来源:官方媒体/网络新闻

编辑:深思

主编: 图灵

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
00:39
如果你玩三国游戏一分钱都不花,那试试这款,武将全靠招募!
广告三国群英传
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部