客户端
游戏
无障碍

4

评论

4

1

手机看

微信扫一扫,随时随地看

谷歌CEO称其有史最智能模型,实测Gemini 2.5 Pro推理能力竟超DeepSeek-R1

AI划重点 · 全文约1942字,阅读需6分钟

1.Google发布了全新模型Gemini 2.5 Pro,称其具有史以来最智能的AI模型。

2.Gemini 2.5 Pro在各大基准测试中实现全面“屠榜”,包括编程、数学和科学基准测试。

3.然而,在实际使用中,Gemini 2.5 Pro在审美和玩家体验等软实力上仍有欠缺。

4.今年以来,谷歌大模型上新速度逐渐加速,推出了Gemini 2.0、Gemini 2.0 Flash等模型。

5.目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中向高级订阅用户开放,预计未来几周内宣布公开定价。

以上内容由腾讯混元大模型生成,仅供参考

作者沐风

来源AI先锋官


Google终于登顶一次了。

当地时间3月25日,Google直接上线了全新模型Gemini 2.5 Pro。

Google表示,Gemini 2.5 Pro支持100万个token的上下文窗口,这意味着它一次性能处理相当于两本《红楼梦》字数的文本量。

并且,Google还提到,Gemini 2.5 Pro很快将支持两倍的上下文窗口(即200万个token)。

Google CEO Sundar Pichai更是直言:“这是我们有史以来最智能的 AI 模型。”

Gemini 2.5 Pro在各大基准测试上实现全面“屠榜”,在所有测试中都稳居第一名,包括常见的编程、数学和科学基准测试。

在Arena排行榜上,Gemini 2.5 Pro还创下了历史上最大分数飞跃,比Grok-3/GPT-4.5分别高出了39/45分。

图片

在“Humanity's Last Exam”测试中,它获得了18.8%的最高分数,这是目前为止所有未使用外接工具的大模型中最好的成绩。

图片

“Humanity's Last Exam”是一个由全球近千名专家共同设计的多模态基准测试,旨在评估大型语言模型的能力极限,被视为人类给 AI 的终极考验,该测试包含3000道涵盖数学、人文学科和自然科学等多个领域的前沿问题。

另外,在人类偏好测试中,它与Grok-3和GPT-4.5在困难提示词和编程两大领域拿到了并列第一,而在其他类别中均问鼎榜首。

图片

在网页开发领域,Gemini 2.5 Pro较上一代Gemini有了巨大的飞跃,同时也是首个超越Claude 3.5 Sonnet的模型,在WebDev Arena上排名第二,仍低于Claude 3.7 Sonnet。

图片

但在KCORES大模型竞技场上的评测结果显示,Gemini 2.5 Pro总体得分 370.6分,超越了 Claude-3.7-Sonnet-Thinking 不少。

图片

由此看来,Gemini 2.5 Pro可能确实担得起“有史以来最强”的名号。

看完了成绩单,那么Gemini 2.5 Pro在实际使用中与DeepSeek-R1相比表现又会如何呢?

咱们实测见真章。

逻辑推理

问题:五位探险者(A、B、C、D、E)按等级从高到低(A>B>C>D>E)发现100枚金币。他们需按顺序(A→E)提出分配方案,规则如下:

投票:提议者+至少半数同意(含平局)则通过,否则提议者被淘汰。

目标:所有人绝对理性,优先保命,其次多拿金币,最后多淘汰他人。

若你是A,如何分配金币以确保方案通过且自身收益最大?需详细推导过程。

Gemini 2.5 Pro
图片

DeepSeek-R1
图片
此问题涉及逆向思维,分步骤推理,考虑每个人的策略,属于博弈论的经典问题,同时还涉及逻辑和数学归纳法。

Gemini 2.5 Pro和DeepSeek-R1都通过一步一步的逆向推理,成功得出了正确答案。

再来一道,问题:两个人同时来到了河边,都想过河,但只有一条小船,而且小船只能载一个人。请问:他们能否都过河?

Gemini 2.5 Pro
图片

DeepSeek-R1
图片
这道题存在一个逻辑陷阱,就是“两个人同时来到了河边”但不一定在同一边,Gemini 2.5 Pro 也是成功识破了逻辑陷阱,而DeepSeek-R1则陷入了逻辑矛盾之中

数学问题

问题:设函数 f(x) 在 x=0 处可导,且 f(0)=0,若 x=0 是 f(x) 的极值点,则 f ′(0) 的值为( )。

Gemini 2.5 Pro
图片

DeepSeek-R1
图片
它俩均回答正确,那就再来一道博士资格考试的群论数学问题:有多少个147阶的非同构群?

Gemini 2.5 Pro
图片

DeepSeek-R1
图片

Gemini 2.5 Pro给出了正确的解答,而DeepSeek-R1却被难住了。

小编又将此题发送给了Kimi 1.5,遗憾的是它也未答对。

图片

编程能力

提示词:Create a beautiful, interactive p5jsdemo (no HTML). Like fish and nebulae.Show me what the fish are thinking.

图片

在官方的示例中,仅仅根据这行提示词,它就生成了一段p5js的交互式动画,展示了“宇宙鱼”的场景,并且还显示了鱼们都在想什么。

同时,也有用户用它创建了一个简单的汽车模拟器:

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

还有专业人士使用完全相同的提示测试了它和o1 pro:

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

可以看出,Gemini 2.5 Pro在数学和编程等能力上还是有实力的,但在审美和玩家体验等软实力上还有一点欠缺。

今年以来,或许是感受到了来自OpenAI和DeepSeek的持续压力,谷歌大模型上新速度逐渐加速。

去年12月,谷歌宣布了Gemini 2.0的推出。

今年2月,谷歌旗下AI大模型Gemini系列全面上新,包括正式版Gemini 2.0 Flash、Gemini 2.0 Flash-Lite以及新一代旗舰大模型Gemini 2.0 Pro实验版,并在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking实验版。

现在谷歌又推出Gemini 2.5 Pro,可见更新频率之频繁。

目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中向Gemini Advanced的订阅用户开放,并将很快在Vertex AI上推出,并在未来几周内宣布公开定价。

有消息称DeepSeek-R2预计在未来两个月内推出,期待它带来新的超越。

 .END.

往期文章回顾
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
00:41
奇迹MU,卓越+13随便爆,人人一把+15大天使!装备回收,自由交易
广告奇迹MU-刀刀爆卓越
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部