邮箱|lijingya@pingwest.com
刚过去的人工智能国际顶会NeurIPS 2024上,7000余篇投稿都与大模型评测相关。
模型评测并非大模型火热后才有的方向。去年GenAI早期阶段,一些模型评测榜单因反复出现刷榜行为而备受指摘,比如由上交、清华和爱丁堡大学研究员推出的开源评测榜单C-Eval,就因频繁出现厂商做出的新晋大模型排在GPT-4之前,而被推上风口。自然语言处理社区SuperCLUE,去年曾是国内被曝光最多的大模型榜单之一,也曾因为科大讯飞的排名而引发争论。
这些榜单的最大争议聚焦于一点,“评测集应该是封闭的,避免被作弊,但一个好的大模型评测应该是过程公开的评测,方便大家对评测做监督。”但当时只有两家国内机构具备将大模型评测过程公开的实力,一是上海人工智能实验室;另一家就是智源。
一般而言,评测一个大模型比做一个大模型更难,大模型能力越强,对评测的挑战也就越大,于是这成为一个长期且要持续投入之事。
今年以来,由于一直没有出现公认有效的评测方式,而且随着模型能力提升,评测所需的探索和资源消耗很大,能负担得机构并不太多,模型评测在产业界温度与学界(NeurIPS )态度开始出现分野,显露出少许转冷迹象。
加诸下半年伴随各家模型厂商推出模型的同时发布榜单,一则事实浮出水面:各大榜单上的模型绝对分数的意义开始变小,因为分数能体现出的模型能力指标细节始终无法扩容,而当两个模型绝对分数相差无几时,模型的能力也就相差无几,这造成了,外界开始认为各类榜单存在各自利益诉求,而逐渐对榜单失去兴趣,同时业界也急需一份能体现模型细化能力指标的优质榜单出现。
智源研究院响应了这一需求缺口,是到现在还在坚持做模型评测榜单的存在。
北京时间12月19日周四下午,智源研究院花了一下午时间,发布并解读了国内外100余个开源和商业闭源大模型综合及专项评测榜单,还举办了一场大模型辩论表演赛。
半年前他们就举办过一次,当时有140个国内外开闭源大模型参与,那时的评测明显比这次简单,智源当时从主客观维度考察了语言模型的几大能力,针对多模态模型则主要评估了理解和生成水平。
这次智源的评测仍聚焦在模型能力上,但其大胆舍弃了基础语言模型评测榜单,结合新晋趋势,聚焦在应用之上,推出了对话模型榜单。
“大家更关注在应用上面,基础的语言模型对技术实力、财力都是很大的挑战,需要资源也会更多。当前基础模型在收敛。”智源研究院智能评测组负责人杨熙解释了原因,她指出,对话模型相比基础语言,对评测的要求更高。
在多种模态评测方面,智源在评测大类上做了丰富拓展,细致覆盖了文本、语音、图片、视频理解与生成几大领域,展现出对模型做深层次、细颗粒度分析的能力,不但领先于国内同行,而且在系统性上也领先于擅长做单点分析的海外榜单。
半年前,智源方面表示,相较文本,视频的主观评价复杂度极高,需要系统化构建针对文生视频模型的主观评价体系。而现在,智源显然已经做到了这一点。
智源杨熙表示,评价模型理解能力相对于生成能力更为容易,因为理解相对封闭,生成存在更大空间,很多不可控性,于是对评测提出更大挑战。因此这次智源在生成的评测指标上,也做了大量任务外延。
这些评测变化都依托智源的大模型角斗场FlagEval进行,后者是智源推出的面向用户开放的模型对战评测服务,反映出了用户对模型选型的偏好,于2023年6月上线,经过一年半的多轮迭代,最新的FlagEval涵盖了约40款国内外顶尖大模型,包括语言模型和多模态,还首次将文生视频模型纳入评测范围,如Runway、Pika、爱诗PixVerse、快手可灵、字节即梦2.0、智谱AI清影、星火绘镜、Luma等。
FlagEval这样的机制从一开始就被业界看好。具体讲这是一个大模型公平对战机制,相比其他方法能相对最准确地捕捉模型间的微小差异,为用户提供更深入的洞察,FlagEval和其海外优秀同行Chatbot arena也也被认为是当前模型评测中最先进的机制。
但智源当时发现,FlagEval和arena这样的模型对战榜单已经不太能满足对模型深层次能力挖掘的需求,“对战是一种重要形式,但模型对战也存在各种各样的问题,比如来自用户的偏见 bias,再如当前的模型能力,在面对普通大众化通用问题时,模型之间的区分并不明显。”一位智源内部研究员告诉硅星人。
在这一前提下,智源急需探索基于对战模式之下,还有什么能够有区分度地体现模型更为高级的能力,智源此后选择了辩论这种形式,作为其心目中将体现模型深层次、高级别能力的区分方式。
但当时具体实施起来是条件受限的,因为“去年大模型能力还没有达到一定水平。”杨熙说。
但现在可以了,10月,智源推出了模型辩论平台FlagEval Debate,作为FlagEval大模型角斗场的延展,其能够深入到前述模型性能中来,甄别语言模型的能力差异。
发布会现场,FlagEval Debate辩论赛揭示了很多有趣问题。
参与辩论的大模型展现了相对一致的优势维度,比如道德规范性,对辩论规则的遵守和语言表达的规范,而其弱点也相对一致:比如语言风格的审美感,和论据的充分性及化解反方论据的能力。我们在现场发现,每个参与辩论的大模型擅长的辩题完全不同,有的极为擅长爱情,有的擅长玄学,但不擅长的辩题却完全相同,比如AI对人类的威胁。这折射出模型安全与对齐方面尚不明确的一些问题。
“辩论能体现高级思辨能力,但也有一定局限性,只是一种高级对战的初步尝试,而不是所有。”现场一位大模型厂商代表向硅星人表示,海外学术机构也在单点上探索辩论赛的模式,做视觉做语音,各有特点,但就全面细致化来说,智源做得更好。
在评测方法上,智源延续并深化了共建生态模式,依托于科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目,智源联合全国10余家高校和机构合作共建,还在数据集细化上也做了很多基础工作,比如联合北大等高校构建了评测集,包括幻觉、多模态、多语言跨模态、复杂代码评测和长视频理解评测,这在半年前也未曾完善。从另一个角度来说,智源有能力完成在语言模型层面的能力系统梳理,与背后科技、工信两部的项目支持强相关。
智源还在试图对统一标准进行组织,他们是IEEE国际标准大模型评测的组长单位,连动了三十几家厂商一起制定标准,这个队伍比半年前的二十余家又有扩容,但发现“执行起来仍然很难”。
智源认为对模型能力细分、再细分会最终对模型选型和优化产生至关重要的指导意义,于是愿意日拱一卒地投入大量资源和心力去实践,他们希望自己成为那个标准收敛后的“统一”。
因为在智源研究院副院长兼总工程师林咏华看来,“统一会避免很多重复性工作”。林咏华透露,本次榜单评测于11月12日封榜,因为智源想严守客观公正的底线。榜单的科学性、公正性、开放性都跟背后机构有关,智源用了很多“技术和非技术”手段严守这一点。
这些努力折射出智源与多家市场派、学术派榜单的真正区别,这也是他们逐步取得credit的方式。
而关于当下的GenAI趋势,做了大量调研的智源有着专属于自己的判断。他们发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用,多模态模型方面势头迅猛,语言模型则相对放缓。模型开源生态中,除了持续开源的海内外机构,还出现了新的开源贡献者。
交流会上释出有价值的观点如下,经硅星人编纂:
1)对比今年5月与12月,新出现的开源模型厂商变少。少量机构还在AGI(通用人工智能)道路上前行;
2)更多厂商在年内发现手头模型已经达到一定可用性,会倾向赶紧将应用落地而非继续训练大语言模型;
3)端侧模型在发力,在未来较短时间内,端云结合会成为发展趋势,小模型做小模型工作,大模型做擅长工作;
4)多模态模型的需求蓬勃向前,但基础模型能力相比语言模型有明显提升空间,明年更多多模态模型将层出不穷,会成为资金能力不强,但创新能力足够的团队的大机会;
5)国内头部多模态模型的文生视频能力从与Sora有明显差距,到现在的“相差无几”,某些层面还要"优于";
6)做通用基座模型训练的厂商会面临巨大的投资挑战,今年还在持续做通用基座模型迭代的厂商,都具备足够实力;
7)语言模型发展进入深水区,更新更大语言模型出现的频率会有所减缓,因为基础能力已经完备,明显的增长不容易取得,需要更多深入创新,针对复杂场景任务的表现,国内头部语言模型仍然与国际一流存在显著差距;
8)在文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形情况;
9)语音语言模型能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距;
10)大量的视频数据没被真正利用;
11)不同意Ilya预训练停滞的观点;
12)O1发布之后各厂商都会有对标产品,只是出来的时间和质量问题;
13)今天的大部分评测针对模型,主要从不同的能力纬度。而将来如果评测智能体要从应用角度出发,评测重点有别于模型:第一,不需要评测360度能力,而是针对AI应用需要的能力进行专业评测;第二,AI应用体现在系统和应用范畴,要评测鲁棒性、成功率、安全性、系统效率等维度。