AI打辩论、搞金融到底行不行?智源发布FlagEval“百模”评测结果揭晓大模型能力现状

全文3580字,阅读约需11分钟,帮我划重点

划重点

01智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

022024年下半年大模型发展呈现出三个特点:聚焦于大模型综合能力的提升与实用性,多模态模型发展迅速,开源生态中涌现出新的开源贡献者。

03然而,大模型在辩论赛中的表现仍存在一定差距,需要进一步探索基于实际应用场景的全新方法。

04为此,智源评测体系将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。

以上内容由腾讯混元大模型生成,仅供参考

“年轻人应不应该相信玄学”?“孙悟空和功夫熊猫哪个更适合成为队友”?2024年12月19日,在智源研究院(下称“智源”)的秋冬评测发布会上,上演了一场大模型与大模型的辩论赛。参与辩论赛的大模型不仅会引经据典,甚至会像人类辩手一样依据对手上一轮的辩词来反击对方。当然,相比真人辩手的表现,大模型辩手依然存在一定差距。而在这两年,智源研究院一直在以客观、科学、中立的第三方来丈量模型生态变局。让大模型之间互相辩论只是衡量大模型能力的方式之一。

同样在12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。相比智源在2024年5月开展的大模型评测:首先智源扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的能力与任务。其次,智源首次增加了面向真实金融量化交易场景的应用能力评估,以便测量大模型的收益优化和性能优化等能力。再次,智源首次探索了基于模型辩论的对比评估方式,以便针对模型的逻辑推理、观点理解、语言表达等能力进行深入分析。

本次评测发现2024年下半年大模型发展呈现出以下三个特点:其一,大模型开发厂商更聚焦于大模型综合能力的提升与实用性。其二,多模态模型发展迅速,目前市面上涌现出不少新厂商与新模型,相比之下语言模型的发展逐渐放缓。其三,在大模型开源生态中,除了那些持续坚定开源的海内外机构之外,还出现了新的开源贡献者。

评测范围覆盖文本、语音、图片、视频理解与生成

对于语言模型,本次评测发现针对一般中文场景的开放式问答任务或生成任务,语言模型的能力已经趋于饱和与稳定。但是,在复杂场景任务中的表现上,国内头部语言模型仍然与国际一流语言模型存在显著差距。在语言模型主观评测中,本次评测重点考察模型的中文能力,评测结果显示:字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。在语言模型客观评测中,评测结果显示:OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

对于视觉语言多模态模型,虽然开源模型的架构比较趋同(语言塔+视觉塔),但是依然呈现出表现不一的特征。对于那些相对较好的开源模型来说,它们在图文理解任务上正在缩小与头部闭源模型的能力差距,但是前者的长尾视觉知识与文字识别能力以及复杂图文数据分析能力仍然有提升空间。评测结果显示:OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

对于文生图多模态模型,2024年上半年参加智源评测的模型普遍无法生成正确的中文文字,而此次参评的头部模型已经具备中文文字生成能力。但是依旧存在以下三方面不足:首先它们依旧存在复杂场景人物变形的情况。其次,针对常识或知识性推理任务,它们在小于3的数量关系任务表现中有所提升,然而依然无法处理大于3的数量关系任务。再次,它们依然很难处理涉及中国文化和中国古诗词理解的任务。评测结果显示:腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

对于文生视频多模态模型,这类模型的生成视频的画质得到了进一步提升,不仅动态性更强,而且镜头语言更丰富、转场更流畅,但是普遍存在大幅度动作变形、无法理解物理规律、物体消失/闪现/穿模等情况。评测结果显示:快手可灵1.5(高品质)、字节跳动即梦P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

对于语音语言模型,得益于文本大模型的进步,其不仅能力提升巨大,而且覆盖面更全。不过,该类模型在具体任务上与专家模型还存在一定差距。整体而言,性能好、通用能力强的开源语音语言模型偏少。评测结果显示:阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo、MIT & IBM LTU均进入前五。

四大专项评测榜单,探索模型能力边界与应用潜能

在本次评测之中,智源再次联合北京市海淀区教师进修学校新编了K12全学段、多学科试卷,旨在进一步考察大模型与人类学生的能力差异。其中,答案不唯一的主观题依然由海淀教师亲自评卷。得益于多模态能力的带动发展,模型本次K12学科测验综合得分相较于半年前提升了12.86%,但是仍与海淀学生平均水平存在差距。在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分。不过,模型普遍存在“文强理弱”的偏科情况。

FlagEval大模型“角斗场”,是智源于2024年9月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。目前,FlagEval覆盖国内外约50款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。此次评测,共有29个语言模型、16个图文问答多模态模型、7个文生图模型、14个文生视频模型参评。评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。

作为模型对战评测服务FlagEval大模型“角斗场”的延展,2024年10月智源推出了模型辩论平台FlagEval Debate,通过对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以便甄别语言模型的能力差异。本次评测发现:首先,大模型普遍缺乏辩论框架意识,不具备针对辩题通过整体逻辑进行综合阐述的能力;其次,大模型在辩论中依然存在“幻觉问题”,论据经不起推敲;再次,大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。评测结果表明:Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAI o1-preview-2024-09-12为前三名。

此次评测中,智源还探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。对于真人金融量化交易员来说,他们通常被认为是量化金融界的“食物链顶端”。而本次评测发现:大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。评测结果显示:深度求索Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest位列前三。

FlagEval再迭代,覆盖全球800多个开闭源模型

本次评测依托智源的大模型评测平台FlagEval,经过数次迭代目前其已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。

在评测的方法与工具上,智源联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型 FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的HalluDial幻觉评测集、与北京师范大学共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等。其中,智源与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集,有18000多个轮次对话,和14万多个回答。为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。

多0.1分或少0.1分,都应在可接受范围内

智源研究院副院长兼总工程师林咏华表示,“衡量一个模型不能仅仅从某一个角度出发,智源希望进行更全面的衡量。”但是,模型在不同层面的表现,会让用户在使用智源评测榜单时,得到更多的信息和可能性。即让用户可以根据个人需求和应用场景选择。比如,数学教育类用户希望找数学能力强的模型,智能客服类用户希望找辩论能力强的模型。那么,这时智源评测榜单就能为其提供很好的参考。

林咏华补充称,的确会出现榜单排名靠前的模型和用户使用主观感觉存在差异的情况。因此建议用户不要只关注排名在前一两名的模型,而是基于榜单所提供的阈值,在可选范围内重点考虑自己在需求上的侧重点。“榜单上多0.1分或少0.1分可能和应用能力没有特别大的关系,也应该在容忍范围之内。”其表示。

总的来说,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。接下来,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。

附榜单图:

图片图片图片图片图片图片图片图片