刚刚,华为宣布开源盘古7B稠密和72B混合专家模型!
嘿嘿,一直以来“神龙见首不见尾”的华为盘古,终于亮剑。
此次,华为开源了两款模型:
1、7B参数量的稠密模型
2、72B参数量的MoE模型
在发布说明中,菊厂给出了一份并不算惊艳的测试对比表。
因为比的对象,大部分都不是“名流”。稍有点说服力的是跟同样MoE且激活参数量更大的Llama-4-Scout相比,基本全面碾压。
当然,既然是“后发”,菊厂肯定要拿出点不一样东西↓
别人都叫MoE,而这次华为提出了MoGE:分组混合专家模型(Mixture of Grouped Experts)。
MoGE核心就是要解决当下MoE最大的难题——专家负载失衡,传统的Top-K路由会把大量Token塞给同一张卡处理,导致整体吞吐被最慢的卡拖死。
MoGE先将专家划分为若干等规模的分组,再从每个分组中选取相同数量的专家进行激活。
在典型的分布式部署中,每个专家分组对应独立的计算设备,从而 MoGE 天然地实现了跨设备的计算负载均衡。
同时,菊厂把这个模型称为「昇腾原生的分组混合专家模型」,再次把菊厂软硬协同的优势打了出来。
怎么「原生」法?说白了,是针对菊厂自己的昇腾铲子,做了以下优化↓
1、分层混合并行+通信裁剪:MFU提升35%
2、专家感知量化与KV压缩:几乎为0的量化精度误差,大幅降低显存占用。
3、定制化算子——MulAttention+SwiftGMM。
4、MoGE分组路由天然负载均衡:训推都不卡长尾,效率提升。
5、MTP多Token并行解码:满足低延迟高并发场景。
就不详说了,大家可以去看论文原文:
https://raw.gitcode.com/ascend-tribe/pangu-pro-moe/raw/main/Pangu-Pro-MoE-CN-Report.pdf
话说,自从大模型爆火以来,华为盘古大模型一直只闻其声,未见其形,只在行业场景咔咔落地,凡间吃瓜群众却难得上手把玩。
这一次,菊厂来真的了,在开源两个盘古模型的同时,华为也开源了推理代码,不光给你金坷垃,还给你金铲铲。
华为下场收割,说明大模型市场已经进入成熟期,这个市场更要卷起来啦。
不过,有吃瓜群众表示,光这俩模型还不够看,期待下一步能有吊打DeepSeek满血版、Qwen3-235B的菊厂大核弹!