模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有的样子

图片

作者李京亚
邮箱lijingya@pingwest.com

刚过去的人工智能国际顶会NeurIPS 2024上,7000余篇投稿都与大模型评测相关。

模型评测并非大模型火热后才有的方向。去年GenAI早期阶段,一些模型评测榜单因反复出现刷榜行为而备受指摘,比如由上交、清华和爱丁堡大学研究员推出的开源评测榜单C-Eval,就因频繁出现厂商做出的新晋大模型排在GPT-4之前,而被推上风口。自然语言处理社区SuperCLUE,去年曾是国内被曝光最多的大模型榜单之一,也曾因为科大讯飞的排名而引发争论。

这些榜单的最大争议聚焦于一点,“评测集应该是封闭的,避免被作弊,但一个好的大模型评测应该是过程公开的评测,方便大家对评测做监督。”但当时只有两家国内机构具备将大模型评测过程公开的实力,一是上海人工智能实验室;另一家就是智源。

一般而言,评测一个大模型比做一个大模型更难,大模型能力越强,对评测的挑战也就越大,于是这成为一个长期且要持续投入之事。

今年以来,由于一直没有出现公认有效的评测方式,而且随着模型能力提升,评测所需的探索和资源消耗很大,能负担得机构并不太多,模型评测在产业界温度与学界(NeurIPS )态度开始出现分野,显露出少许转冷迹象。

下半年伴随各家模型厂商推出模型的同时发布榜单,一则事实浮出水面:各大榜单上的模型绝对分数的意义开始变小,因为分数能体现出的模型能力指标细节始终无法扩容,而当两个模型绝对分数相差无几时,模型的能力也就相差无几,这造成了,外界开始认为各类榜单存在各自利益诉求,而逐渐对榜单失去兴趣,同时业界也急需一份能体现模型细化能力指标的优质榜单出现。

智源研究院响应了这一需求缺口,是到现在还在坚持做模型评测榜单的存在。

北京时间12月19日周四下午,智源研究院花了一下午时间,发布并解读了国内外100余个开源和商业闭源大模型综合及专项评测榜单,还举办了一场大模型辩论表演赛。

半年前他们就举办过一次,当时有140个国内外开闭源大模型参与,那时的评测明显比这次简单,智源当时从主客观维度考察了语言模型的几大能力,针对多模态模型则主要评估了理解和生成水平。

这次智源的评测仍聚焦在模型能力上,但其大胆舍弃了基础语言模型评测榜单,结合新趋势,聚焦在应用之上,推出了对话模型榜单。

“大家更关注在应用上面,基础的语言模型对技术实力、财力都是很大的挑战,需要资源也会更多。当前基础模型在收敛。”智源研究院智能评测组负责人杨熙解释了原因,她指出,对话模型相比基础语言,对评测的要求更高。

图片
图片
视觉语言多模态模型,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。
图片
文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力(有一些变化在产生),但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。
图片
语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均进入前五。

在多种模态评测方面,智源在评测大类上做了丰富拓展,细致覆盖了文本、语音、图片、视频理解与生成几大领域,展现出对模型做深层次、细颗粒度分析的能力,不但领先于国内同行,而且在系统性上也领先于擅长做单点分析的海外榜单。

半年前,智源方面表示,相较文本,视频的主观评价复杂度极高,需要系统化构建针对文生视频模型的主观评价体系。而现在,智源显然已经做到了这一点。

智源杨熙表示,评价模型理解能力相对于生成能力更为容易,因为理解相对封闭,生成存在更大空间,很多不可控性,于是对评测提出更大挑战。因此这次智源在生成的评测指标上,也做了大量任务外延。

这些评测变化都依托智源的大模型角斗场FlagEval进行,后者是智源推出的面向用户开放的模型对战评测服务,反映出了用户对模型选型的偏好,于2023年6月上线,经过一年半的多轮迭代,最新的FlagEval涵盖了约40款国内外顶尖大模型,包括语言模型和多模态,还首次将文生视频模型纳入评测范围,如Runway、Pika、爱诗PixVerse、快手可灵、字节即梦2.0、智谱AI清影、星火绘镜、Luma等。

图片
FlagEval平台支持四大核心任务的自定义在线或离线盲测,这些任务涵盖了简单理解、知识应用、代码能力、推理能力等多个维度,全方位评估AI模型的综合实力。FlagEval采用了匿名对战机制,确保评测的公正性,同时引入了业界首创的主观倾向阶梯评分体系。包含5个精细梯度。

FlagEval这样的机制从一开始就被业界看好。具体讲这是一个大模型公平对战机制,相比其他方法能相对最准确地捕捉模型间的微小差异,为用户提供更深入的洞察,FlagEval和其海外优秀同行Chatbot arena也被认为是当前模型评测中最先进的机制。

但智源当时发现,FlagEval和arena这样的模型对战榜单已经不太能满足对模型深层次能力挖掘的需求,“对战是一种重要形式,但模型对战也存在各种各样的问题,比如来自用户的偏见 bias,再如当前的模型能力,在面对普通大众化通用问题时,模型之间的区分并不明显。”一位智源内部研究员告诉硅星人。

在这一前提下,智源急需探索基于对战模式之下,还有什么能够有区分度地体现模型更为高级的能力,智源此后选择了辩论这种形式,作为其心目中将体现模型深层次、高级别能力的区分方式。

但当时具体实施起来是条件受限的,因为“去年大模型能力还没有达到一定水平。”杨熙说。

图片
辩论赛形式在业界一直有所讨论,FlagEval Debate今年11月上线,此后海外出现了一些同类场景,但海外学术机构倾向于在单点层面执行,做视觉就做视觉,做语音就做语音,各有特点,但就全面细化程度来说,智源做得最早也相对最好。

但现在可以了,10月,智源推出了模型辩论平台FlagEval Debate,作为FlagEval大模型角斗场的延展,其能够深入到前述模型性能中来,甄别语言模型的能力差异。

发布会现场,FlagEval Debate辩论赛揭示了很多有趣问题。

参与辩论的大模型展现了相对一致的优势维度,比如道德规范性,对辩论规则的遵守和语言表达的规范,而其弱点也相对一致:比如语言风格的审美感,和论据的充分性及化解反方论据的能力。我们在现场发现,每个参与辩论的大模型擅长的辩题完全不同,有的极为擅长爱情,有的擅长玄学,但不擅长的辩题却完全相同,比如AI对人类的威胁。这折射出模型安全与对齐方面尚不明确的一些问题。

“辩论能体现高级思辨能力,但也有一定局限性,只是一种高级对战的初步尝试,而不是所有。”现场一位大模型厂商代表向硅星人表示,海外学术机构也在单点上探索辩论赛的模式,做视觉做语音,各有特点,但就全面细致化来说,智源做得更好。

在评测方法上,智源延续并深化了共建生态模式,依托于科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目,智源联合全国10余家高校和机构合作共建,还在数据集细化上也做了很多基础工作,比如联合北大等高校构建了评测集,包括幻觉、多模态、多语言跨模态、复杂代码评测和长视频理解评测,这在半年前也未曾完善。从另一个角度来说,智源有能力完成在语言模型层面的能力系统梳理,与背后科技、工信两部的项目支持强相关。

图片
智源评测发现,文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

智源还在试图对统一标准进行组织,他们是IEEE国际标准大模型评测的组长单位,连动了三十几家厂商一起制定标准,这个队伍比半年前的二十余家又有扩容,但发现“执行起来仍然很难”。

智源认为对模型能力细分、再细分会最终对模型选型和优化产生至关重要的指导意义,于是愿意日拱一卒地投入大量资源和心力去实践,他们希望自己成为那个标准收敛后的“统一”。

因为在智源研究院副院长兼总工程师林咏华看来,“统一会避免很多重复性工作”。林咏华透露,本次榜单评测于11月12日封榜,因为智源想严守客观公正的底线。榜单的科学性、公正性、开放性都跟背后机构有关,智源用了很多“技术和非技术”手段严守这一点。

这些努力折射出智源与多家市场派、学术派榜单的真正区别,这也是他们逐步取得credit的方式。

而关于当下的GenAI趋势,做了大量调研的智源有着专属于自己的判断。他们发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用,多模态模型方面势头迅猛,语言模型则相对放缓。模型开源生态中,除了持续开源的海内外机构,还出现了新的开源贡献者。

交流会上释出有价值的观点如下,经硅星人编纂:

1)对比今年5月与12月,新出现的开源模型厂商变少。少量机构还在AGI(通用人工智能)道路上前行;

2)更多厂商在年内发现手头模型已经达到一定可用性,会倾向赶紧将应用落地而非继续训练大语言模型;

3)端侧模型在发力,在未来较短时间内,端云结合会成为发展趋势,小模型做小模型工作,大模型做擅长工作;

4)多模态模型的需求蓬勃向前,但基础模型能力相比语言模型有明显提升空间,明年更多多模态模型将层出不穷,会成为资金能力不强,但创新能力足够的团队的大机会;

5)国内头部多模态模型的文生视频能力从与Sora有明显差距,到现在的“相差无几”,某些层面还要"优于";

6)做通用基座模型训练的厂商会面临巨大的投资挑战,今年还在持续做通用基座模型迭代的厂商,都具备足够实力;

7)语言模型发展进入深水区,更新更大语言模型出现的频率会有所减缓,因为基础能力已经完备,明显的增长不容易取得,需要更多深入创新,针对复杂场景任务的表现,国内头部语言模型仍然与国际一流存在显著差距;

8)在文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形情况;

9)语音语言模型能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距;

10)大量的视频数据没被真正利用;

11)不同意Ilya预训练停滞的观点;

12)O1发布之后各厂商都会有对标产品,只是出来的时间和质量问题;

13)今天的大部分评测针对模型,主要从不同的能力度。而将来如果评测智能体要从应用角度出发,评测重点有别于模型:第一,不需要评测360度能力,而是针对AI应用需要的能力进行专业评测;第二,AI应用体现在系统和应用范畴,要评测鲁棒性、成功率、安全性、系统效率等维度。