客户端
游戏
无障碍

2

评论

2

1

手机看

微信扫一扫,随时随地看

实测百度文心大模型X1.vs.阿里Qwen2.5,文心大模型4.5.vs.Gemini 2.0

作者|子川

来源AI先锋官


昨日,许久不见的文心迎来了重磅更新,正式发布文心大模型4.5文心大模型X1,比之前官宣的4月1日全面免费提前了半个月。
文心大模型4.5:百度新一代原生多模态基础大模型,能对文字、图片、音频、视频等内容进行综合理解。
文心大模型X1:首个自主运用工具的深度思考模型,具备更强的理解、规划、反思、进化能力,同样也支持多模态。
从官方放出的成绩单来看,文心4.5这款模型实力不容小觑。
文心 4.5 在多模态能力几乎全面超越GPT-4o,GPT-4o 仅在 MMMU 上的表现更好。
图片
在文本测试基准上,文心 4.5 在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基准上的成绩要优于DeepSeek-V3、GPT-4o、GPT-4.5等模型,同时它的平均分也同样高于其他三款模型。
图片
不过,此次测评并没有放出文心X1的成绩。
重点来了!它的价格会是多少?
当看到这两款模型的价格的那一刻,终于明白了广为流传的一句话“没有最卷,只有更卷”。
文心4.5输入价格低至0.004元/千tokens,输出价格低至0.016元/千tokens。
文心X1输入价格低至0.002元/千tokens,输出价格低至0.008元/千tokens。
图片
这个价格是什么概念,文心4.5的价格约为GPT4.5的1%。
图片
同时文心X1的价格是DeepSeek R1的一半。
图片
看到这价格,只能说一句——
图片
那效果到底如何,我们来实测一下。
文心4.5号称能对文字、图片、音频、视频等内容进行综合理解,下面来看一下它的回答到底靠不靠谱。
下面我们用最近爆火的Gemini 2.0 Flash Experimental和文心4.5做一下对比。
图片理解:
先来一个降档的看图猜成语,效果似乎不错,文心4.5回答正确,成功猜出成语“呆若木鸡”,但Gemini 2.0 Flash Experimental的答案就有点离谱了——“击飞蛋打”
文心4.5
图片
Gemini 2.0 Flash Experimental
图片
再来一个,看看这次Gemini能否把握住。
好家伙,这次都没有回答正确。
文心4.5
图片
Gemini 2.0 Flash Experimental
图片
再来看一看它们是否能理解梗图。
文心4.5
图片
Gemini 2.0 Flash Experimental
图片
这两款模型对于梗图的理解还是相当到位的。
音频理解:
来一个简单的,刚刚录了一段背诵木兰辞的的音频,看它们是否能将音频中的所有文字都提取出来。
回答正确!并成功识别出这是木兰辞。
文心4.5
图片
Gemini 2.0 Flash Experimental
图片
上上难度,听歌识曲。
文心4.5
图片
Gemini 2.0 Flash Experimental
图片
这次轮到文心4.5翻车了,没有识别出来,相反,Gemini 2.0 Flash Experimental匹对成功。
视频理解:
最近在看“阴阳裁缝”,对里面的做法事颇感兴趣,看看文心4.5能否理解视频中人物的动作行为。
Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X
文心4.5
图片
Gemini 2.0 Flash Experimental
图片
好家伙,文心4.5再次翻车,视频短短19秒的画面,并没有出现双手合十的画面,而且台词提取的也不全,仅仅提取开头的那一部分。
而Gemini 2.0 Flash Experimental这款模型就能完美的理解视频中的人物动作,并把所有的台词都提取出来。
下面我们再来看一下文心X1的表现。
值得关注的是,文心大模型X1能“自主运用工具”,已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。
比如给它一张佛跳墙的图片,让它输出佛跳墙的正确做法并转换成PDF文件。
文心X1首先会调用图片理解工具,然后再调用代码解释器功能,将做法转换成PDF,玩起来非常有意思。

图片

据介绍,文心X1是推理模型,老规矩,接下来,实测一下,看一下文心X1的推理能力到底有多强。
下面就用文心X1和DeepSeek R1、Qwen2.5-Plus打个PK。
测试题一:经典难题
最近在测试时,还会发现部分模型面对9.11和9.8谁大?Strawberry有几个字母r等问题出现错误,看看它们三是否能回答正确。
文心X1
图片

DeepSeek R1

图片

Qwen2.5-Plus

图片

不出所料,全部回答正确,上上难度,来一道较难的推理题。

测试题二:推理日期

提示词:如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天可能是周几?

文心X1

图片

DeepSeek R1

图片

Qwen2.5-Plus

图片

这道推理题仅Qwen2.5-Plus少推理出一个答案,其他两款模型文心 X1和DeepSeek R1都回答正确。

测试题三:猜猜老师的生日

老师告诉学生自己的生日是以下日期之一:3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日。老师只告诉了A月份,告诉了B日期。A说:“我不知道老师的生日,但B肯定也不知道。” B说:“我本来也不知道,但现在我知道了。” A说:“那我也知道了。” 请问老师的生日是哪一天?

文心X1

图片

DeepSeek R1

图片

Qwen2.5-Plus

图片

仔细去看了这道题的推理过程,非常烧脑,想不到最后它们都回答正确了,有点东西~

既然这样,那就只能智取了,来一道挖坑的题。

测试题四:一根8米长的竹竿是否能通过一个4米高、2米宽的门?

文心X1

图片

DeepSeek R1

图片

Qwen2.5-Plus

图片

终于是坑到DeepSeek R1和Qwen2.5-Plus这两款模型了,它们的回答是一根8米长的竹竿不能通过一个4米高、2米宽的门,反观文心 X1回答正确,它理解可以侧着过去。

测试题五:拿多少个乒乓球

排列着100个乒乓球,由两个人轮流拿球,每次至少拿1个,最多拿5个,拿到第100个乒乓球的人获胜。如果你是先拿的人,第一次该拿几个?

文心X1

图片

DeepSeek R1

图片

Qwen2.5-Plus

图片

再一次全部回答正确,太厉害了!!!

后续小编又测试了10多道推理题,三款模型均准确作答,难分伯仲!

注意,并没有开联网功能,而是它们用自身的推理能力回答出来的。

看来该更新测试题库了.....,模型的迭代速度太快了。

插播一条预告,百度将在6月30日正式开源文心大模型,并预计在下半年发布文心大模型5.0,大家可以期待一下~


 .END.

往期文章回顾
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部