智源研究院公布100个模型评测结果

中国经营报

2024-12-23 16:11发布于北京中国经营报官方账号

全文1819字，阅读约需6分钟，帮我划重点

划重点

01智源研究院发布并解读国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

022024年下半年，大模型发展将更聚焦综合能力提升与实际应用，多模态模型发展迅速。

03语言模型发展相对放缓，国内头部语言模型与国际一流水平存在显著差距。

04与此同时，多模态模型需求旺盛，存在明显的提升空间。

05由于数据孤岛的存在，中文互联网数据占全球的比例仅剩下1.3%。

以上内容由腾讯混元大模型生成，仅供参考

本报记者曲忠芳北京报道

12月19日，智源研究院发布并解读国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。基于评测结果，智源研究院副院长兼总工程师林咏华总结指出，2024年下半年，大模型发展更聚焦综合能力提升与实际应用；多模态模型发展迅速，涌现出不少新的厂商与新的模型，语言模型发展相对放缓。在模型开源生态中，除了Meta这些科技巨头之外，也出现了新的开源贡献者。

《中国经营报》记者注意到，现场反响最为热烈的环节是由AI大模型实时演示的辩论赛，由阶跃星辰、智谱AI两家国产大模型，与OpenAI的GPT-4o、Anthropicr Claude-3.5两家海外大模型随机“开展辩论”。就“拥抱玄学是不是当代年轻人的精神解脱之道”“功夫熊猫和孙悟空哪一个更适合做队友”两个辩题分别进行正反方辩论，由两名来自北京大学的辩论专家进行现场点评。

“测评一点也不比开发简单”

林咏华在现场感叹：“大模型性能测评一点儿也不比大模型开发简单。”她介绍，智源研究院自2023年6月上线了大模型评测平台FlagEval，经过多次迭代升级后，目前已覆盖全球800多个开源、闭源模型，包括20多种任务、90多个评测数据集、超200万条评测题目。值得一提的是，今年9月，智源研究院上线开放了“大模型角斗场”，支持用户通过模型对战来评测模型的性能及服务质量。

本报记者注意到，大模型领域在呈现“百模大战”竞争格局的同时，大模型性能评测也蔚然成风，除了智源研究院FlagEval之外，国际开源大模型社区HuggingFace、中文通用大模型综合性能评测基准SuperCLUE、上海人工智能实验室的OpenCompass司南等的测评结果、榜单也经常见诸媒体报道。这些测试结果或排行榜，不仅能够给消费者在纷繁芜杂的应用市场提供一些选择认知参考，而且对企业技术厂商来说也能提供第三方背书，了解自身所处的行业地位。

智源研究院此次发布的评测结果涉及语言模型、文生图、文生视频多模态模型、语音语言模型等。其中，语言模型针对一般中文场景的开放式问答或者生成任务，模型能力已趋于饱和稳定，但是复杂场景任务的表现，国内头部语言模型仍然与国际一流水平存在显著差距。语言模型主观评测重点考察模型中文能力，结果显示字节跳动的豆包pro、百度文心4.0 Turbo分别位居第一、第二，OpenAI GPT-o1、Anthropic的Claude-3-5分别位列第三、第四，阿里巴巴的千问-Max排名第五。此外，从文生视频多模态模型的测评结果来看，文生视频尚处于起步阶段，画质、镜头动态性、转场流畅度在提升的同时，普遍存在着大幅度的动作易变形、无法理解物理规律、物体消失、闪现、穿模等情况。结果显示，快手可灵1.5高品质版、字节跳动即梦P2.0pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

语言模型发展放缓，多模态需求蓬勃

智源研究院在现场真实演示大模型1v1辩论赛的环节引起了热烈的反响，林咏华称由2018年IBM的AI系统Project Debater首次与人类进行现场公开辩论启发，机器与机器对战、机器与人类对抗，都是为了更直观地展示AI的能力。

谈及测评结果显示的“语言模型发展放缓”观察，林咏华指出，语言模型发展至今已具备了基础能力，以Meta的LLama 405B、阿里巴巴的千问2模型为例，性能表现已很高，后续要实现明显增长不太容易。因此，我们会看到更新更大的语言模型出现的频率有些减缓，发展进入了“深水区”。400B参数量的大语言模型，如果要进行更大的创新，需要投入的资源成本是相当巨大的，“深区水”的创新难度会更大。

与此同时，林咏华表示：“从全球模型的发展情况来看，模型尺寸正在出现两极分化。”今年11月Hugging Face下载量最高的模型集中于两类：一类是更大、更强的稠密模型，如Llama3.1 405B一个月的下载量达到七八百万次；另一类呈现高下载量的却是7B及以下的小模型。

与语言模型放缓形成鲜明对比的是，多模态模型的潜力正在逐步显现，需求旺盛，很多场景都依赖多模态模型，而多模态模型的基础能力还没有像语言模型那样达到一定的水平，存在明显的提升空间。在智源研究院看来，预计2025年，多模态模型会层出不穷，包括开源的多模态模型。

在采访中，林咏华还提到中文互联网“数据孤岛”的问题。十年前，以中文撰写的互联网数据占全球的比例约5%，但自2021年至今，这一数字仅剩下1.3%。需要注意的是，全球使用中文上网的用户数量在十年里变化并不明显，约19%。这一比例呈现如此大落差的原因便是数据孤岛的存在。再以新兴的视频生成模型来看，大量的互联网视频数据并没有被真正地、很好地利用，成为当下视频生成模型的生成质量仍有较大提升空间的原因之一。

（编辑：吴清审核：李正豪校对：颜京宁）