深度|LMArena 最新战报:字节 Seed 2.0 杀入第一梯队,国产模型集体挤进全球 TOP 20

春节期间国产模型的集体上新,LMArena 榜单也随之大换血。
最引人注目的莫过于字节的 Seed 2.0。虽然是首次亮相,Seed 2.0 在公开竞技场一举夺得国内综合排名榜首,更以全球第 9 的佳绩强势挤进世界前十。
 紧随其后的是数家在春节前后密集更新的国产旗舰GLM-5文心 5.0以及 Qwen 3.5Kimi K2.5 亦在伯仲之间。国产大模型第一梯队正以前所未有的集群姿态,集体冲击全球最高水平。
图片

从细分项看,几家国产新旗舰的能力结构并不相同。

字节的 Dola-Seed-2.0-preview 是目前表现最强势的国产模型,综合排名位列全球第 9。该模型在 Coding 上尤为出色,排名全球第 7,在 Hard Prompts(高难度指令) 方面也位居第 8。这表明字节的 Seed 系列在处理复杂逻辑和生产力工具场景下,已经具备了与 Google Gemini 和 OpenAI GPT 系列正面硬刚的实力。

月之暗面的 Kimi-K2.5-thinking 虽然综合排名在第 19,但在特定的推理领域表现惊人。它在 Math 维度高居全球第 8,在 Expert 维度排名第 10。这说明 Kimi 的强化学习和思考机制在解决极高难度的理科问题和复杂知识理解上,甚至超过了许多排名更靠前的通用型模型。

GLM-5(智谱AI)、Ernie-5.0-0110(百度文心) 以及 Qwen3.5-397b(阿里千问) 紧随其后,分别占据了第 16、17、18 名。这些模型在 Math 和 Coding 等硬核指标上普遍优于其综合排名(如文心一言数学第14,通义千问编程第20),反映出国产模型在数理逻辑和技术落地上的深耕。

虽然国产模型在 Top 20 中占据了近四分之一的席位,但与最顶尖的 Claude-opus-4-6 和 Gemini-3.1-pro 在 Overall 和 Creative Writing 方面仍有一定身位差。目前国产模型主要在硬实力(数学、编程、专家知识)上寻求突破,而在指令遵循的细腻程度和长文本任务的稳定性上,仍是未来追赶的主要目标。

与此同时,在垂直赛道的细分战场上,国产模型的表现进一步印证了“全赛道渗透、多点开花”的趋势。

在最考验逻辑硬功夫的代码赛道,智谱AI的 GLM-5 表现抢眼,以 1452 的评分成功跻身全球前八不仅稳住了国产第一的梯队,更成为唯一杀入该项前十的国产力量。有趣的是,这种单项冠军的特质在不同维度的测试中呈现出了奇妙的反差。虽然 GLM-5 在垂直的专业代码榜单中高居全球第 8,但在覆盖全语言、全场景的综合编程能力测试中,其排名却更低一些。

图片

多模态领域则是字节跳动Seed系列的强势领域。在图像编辑(Image Edit)榜单中,Seedream 4.5 与 Seedream 5.0-lite 分别占据了第七和第十的位置,腾讯的 Hunyuan-image-3.0 亦表现不俗,位列第八。这种组团入榜说明国产模型在图像精准控制和二次创作上已经具备了与顶级巨头掰手腕的实力。

图片

而在视觉理解(Vision)维度,Seed 2.0-preview 稳居第六,此前在综合排名中稍显靠后的 Kimi K2.5-thinking 也凭借其深度的逻辑推演能力,在视觉分析赛道成功卡位全球第十。

图片

最能体现未来技术爆发力的视频生成领域,国产阵营展现出了极强的韧性。在文本生成视频(Text-to-Video)中,Wan 2.6 成功突围至第八名,直接向 Sora 和 Veo 等顶级模型发起了挑战。而在难度更高的图像生成视频(Image-to-Video)赛道,生数科技的 Vidu-q3-pro 与 Wan 2.5 联手包揽了第七和第八名。国产视频模型已经跨越了能看的门槛,正在动作一致性、时空连续性等核心指标上,加速缩短与全球第一梯队的距离。

图片

然而,搜索(Search)赛道依然是国产模型亟待攻克的堡垒。在目前的全球前十排名中,国产模型尚无一上榜,该领域仍由 Grok、GPT 和 Gemini 深度把持。在 RAG 与大模型深度融合的精准度上,国产阵营仍需更高效的工程化落地。

图片

组织效率的一次公开验证

榜单呈现的是结果。但结果背后真正昂贵的,是在竞争周期被压缩到周级时,仍能稳定交付新版本的能力。

2025 年初吴永辉接管 Seed 部门后,主导打破了模型部门间的数据壁垒。他组建了三层架构:Edge 团队负责长周期的 AGI 课题,Focus 团队负责核心技术攻坚,Base 团队则确保当前一代模型的稳定交付。

上任一年,字节目前的工程化能力已经比国内任何一家公司都要强。吴永辉交出的这份万亿参数 Seed 2.0 的成绩单,已经是相当了不起的成绩。

更大的意义在于它装进了豆包,这个日活过亿的国民级 AI 产品。这会形成一个典型的字节式闭环,一条更具体的反馈链路:

豆包接入更强的模型 → 用户在更复杂任务上的完成率上升(尤其是长链路、多模态、工具调用)→ 产品可承接的场景扩大(办公、学习、创作、搜索替代、拍照理解等)→ 更密集、更高质量的交互数据回流(不仅是问答,还有任务步骤、失败模式、偏好选择)→ 反哺偏好对齐与产品化能力 → 下一轮迭代更贴近真实场景。

榜单是结果,组织是原因,产品是兑现。豆包到底能不能杀死比赛,让我们拭目以待。