1.智源研究院发布了2024年下半年大模型综合评测结果,涵盖文本、语音、图像和视频等多个领域。
2.与今年5月的评测相比,本次评测扩展、丰富、细化了任务解决能力内涵,增加了数据处理、高级编程和工具调用的相关能力与任务。
3.评测结果显示,2024年下半年大模型发展更聚焦综合能力提升与实际应用,多模态模型发展迅速,涌现了不少新的厂商与新模型。
4.然而,语言模型发展相对放缓,国内头部语言模型仍然与国际一流水平存在显著差距。
5.未来,智源研究院将继续探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
新智元报道
【新智元导读】2024年快要结束了,世界大模型究竟孰强孰弱?刚刚,智源研究院发布了下半年大模型综合评测结果,涵盖了开源闭源100+模型,横跨文本、语音、图像和视频等多个领域。
2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。
扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;
首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;
首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。
智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。
多种模态评测综合榜单:覆盖文本、语音、图片、视频理解与生成
语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。
语言模型主观评测重点考察模型中文能力,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。
在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。
四大专项评测榜单:多维度探索模型能力边界与应用潜能
智源评测体系FlagEval再迭代:覆盖全球800+开闭源模型