作者|子川
来源|AI先锋官
昨日,许久不见的文心迎来了重磅更新,正式发布文心大模型4.5和文心大模型X1,比之前官宣的4月1日全面免费提前了半个月。文心大模型4.5:百度新一代原生多模态基础大模型,能对文字、图片、音频、视频等内容进行综合理解。文心大模型X1:首个自主运用工具的深度思考模型,具备更强的理解、规划、反思、进化能力,同样也支持多模态。从官方放出的成绩单来看,文心4.5这款模型实力不容小觑。文心 4.5 在多模态能力几乎全面超越GPT-4o,GPT-4o 仅在 MMMU 上的表现更好。在文本测试基准上,文心 4.5 在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基准上的成绩要优于DeepSeek-V3、GPT-4o、GPT-4.5等模型,同时它的平均分也同样高于其他三款模型。当看到这两款模型的价格的那一刻,终于明白了广为流传的一句话“没有最卷,只有更卷”。文心4.5输入价格低至0.004元/千tokens,输出价格低至0.016元/千tokens。文心X1输入价格低至0.002元/千tokens,输出价格低至0.008元/千tokens。这个价格是什么概念,文心4.5的价格约为GPT4.5的1%。同时文心X1的价格是DeepSeek R1的一半。文心4.5号称能对文字、图片、音频、视频等内容进行综合理解,下面来看一下它的回答到底靠不靠谱。下面我们用最近爆火的Gemini 2.0 Flash Experimental和文心4.5做一下对比。先来一个降档的看图猜成语,效果似乎不错,文心4.5回答正确,成功猜出成语“呆若木鸡”,但Gemini 2.0 Flash Experimental的答案就有点离谱了——“击飞蛋打”Gemini 2.0 Flash ExperimentalGemini 2.0 Flash ExperimentalGemini 2.0 Flash Experimental来一个简单的,刚刚录了一段背诵木兰辞的的音频,看它们是否能将音频中的所有文字都提取出来。Gemini 2.0 Flash ExperimentalGemini 2.0 Flash Experimental这次轮到文心4.5翻车了,没有识别出来,相反,Gemini 2.0 Flash Experimental匹对成功。最近在看“阴阳裁缝”,对里面的做法事颇感兴趣,看看文心4.5能否理解视频中人物的动作行为。Gemini 2.0 Flash Experimental好家伙,文心4.5再次翻车,视频短短19秒的画面,并没有出现双手合十的画面,而且台词提取的也不全,仅仅提取开头的那一部分。而Gemini 2.0 Flash Experimental这款模型就能完美的理解视频中的人物动作,并把所有的台词都提取出来。值得关注的是,文心大模型X1能“自主运用工具”,已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。比如给它一张佛跳墙的图片,让它输出佛跳墙的正确做法并转换成PDF文件。
文心X1首先会调用图片理解工具,然后再调用代码解释器功能,将做法转换成PDF,玩起来非常有意思。据介绍,文心X1是推理模型,老规矩,接下来,实测一下,看一下文心X1的推理能力到底有多强。下面就用文心X1和DeepSeek R1、Qwen2.5-Plus打个PK。最近在测试时,还会发现部分模型面对9.11和9.8谁大?Strawberry有几个字母r等问题出现错误,看看它们三是否能回答正确。DeepSeek R1
Qwen2.5-Plus
不出所料,全部回答正确,上上难度,来一道较难的推理题。
测试题二:推理日期
提示词:如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天可能是周几?
文心X1

DeepSeek R1

Qwen2.5-Plus
这道推理题仅Qwen2.5-Plus少推理出一个答案,其他两款模型文心 X1和DeepSeek R1都回答正确。
测试题三:猜猜老师的生日
老师告诉学生自己的生日是以下日期之一:3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日。老师只告诉了A月份,告诉了B日期。A说:“我不知道老师的生日,但B肯定也不知道。” B说:“我本来也不知道,但现在我知道了。” A说:“那我也知道了。” 请问老师的生日是哪一天?
文心X1
DeepSeek R1
Qwen2.5-Plus
仔细去看了这道题的推理过程,非常烧脑,想不到最后它们都回答正确了,有点东西~
既然这样,那就只能智取了,来一道挖坑的题。
测试题四:一根8米长的竹竿是否能通过一个4米高、2米宽的门?
文心X1

DeepSeek R1
Qwen2.5-Plus
终于是坑到DeepSeek R1和Qwen2.5-Plus这两款模型了,它们的回答是一根8米长的竹竿不能通过一个4米高、2米宽的门,反观文心 X1回答正确,它理解可以侧着过去。
测试题五:拿多少个乒乓球
排列着100个乒乓球,由两个人轮流拿球,每次至少拿1个,最多拿5个,拿到第100个乒乓球的人获胜。如果你是先拿的人,第一次该拿几个?
文心X1
DeepSeek R1
Qwen2.5-Plus
再一次全部回答正确,太厉害了!!!
后续小编又测试了10多道推理题,三款模型均准确作答,难分伯仲!注意,并没有开联网功能,而是它们用自身的推理能力回答出来的。
看来该更新测试题库了.....,模型的迭代速度太快了。
插播一条预告,百度将在6月30日正式开源文心大模型,并预计在下半年发布文心大模型5.0,大家可以期待一下~