华为坐不住了,盘古大模型开源!

刚刚,华为宣布开源盘古7B稠密和72B混合专家模型!

嘿嘿,一直以来“神龙见首不见尾”的华为盘古,终于亮剑。

图片

此次,华为开源了两款模型:

1、7B参数量的稠密模型

2、72B参数量的MoE模型

在发布说明中,菊厂给出了一份并不算惊艳的测试对比表。

因为比的对象,大部分都不是“名流”。稍有点说服力的是跟同样MoE且激活参数量更大的Llama-4-Scout相比,基本全面碾压。

图片

当然,既然是“后发”,菊厂肯定要拿出点不一样东西↓

别人都叫MoE,而这次华为提出了MoGE:分组混合专家模型(Mixture of Grouped Experts)。

MoGE核心就是要解决当下MoE最大的难题——专家负载失衡,传统的Top-K路由会把大量Token塞给同一张卡处理,导致整体吞吐被最慢的卡拖死。

图片

MoGE先将专家划分为若干等规模的分组,再从每个分组中选取相同数量的专家进行激活。

在典型的分布式部署中,每个专家分组对应独立的计算设备,从而 MoGE 天然地实现了跨设备的计算负载均衡。

同时,菊厂把这个模型称为「昇腾原生的分组混合专家模型」,再次把菊厂软硬协同的优势打了出来。

怎么「原生」法?说白了,是针对菊厂自己的昇腾铲子,做了以下优化↓

1、分层混合并行+通信裁剪:MFU提升35%

2、专家感知量化与KV压缩:几乎为0的量化精度误差,大幅降低显存占用。

3、定制化算子——MulAttention+SwiftGMM。

4、MoGE分组路由天然负载均衡:训推都不卡长尾,效率提升。

5、MTP多Token并行解码:满足低延迟高并发场景。

就不详说了,大家可以去看论文原文:

https://raw.gitcode.com/ascend-tribe/pangu-pro-moe/raw/main/Pangu-Pro-MoE-CN-Report.pdf


话说,自从大模型爆火以来,华为盘古大模型一直只闻其声,未见其形,只在行业场景咔咔落地,凡间吃瓜群众却难得上手把玩。

这一次,菊厂来真的了,在开源两个盘古模型的同时,华为也开源了推理代码,不光给你金坷垃,还给你金铲铲

华为下场收割,说明大模型市场已经进入成熟期,这个市场更要卷起来啦。

图片

不过,有吃瓜群众表示,光这俩模型还不够看,期待下一步能有吊打DeepSeek满血版、Qwen3-235B的菊厂大核弹!