始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在招募 | 新一期开源共创志愿者计划,欢迎加入共同成长。wisemodel推出邀请注册奖励活动,最高可得算力券+token包380元奖励,欢迎参与和支持!
终端本征架构
传统稠密模型在端侧的黄金尺寸是3B,这个尺寸即可以较好的契合端侧有限的算力和存储,又具有基础的智能水平。但若继续增大尺寸,端侧的推理速度会快速下降。
如何让3B的算力发挥更大的智能?主流的方式是MoE,即通过参数冗余和动态激活,为模型精度加杠杆。例如一个总参数量21B,激活参数量3B大小的模型,虽然只有3B计算量,但理论精度潜力高达21B,实际也有7~14B的精度表现。但这21B的总参数量对于端侧太过巨大,如果全部放在外存,外存较低的带宽速率会带来Decode速度指数级下降,而如果限制模型激活参数的locality将部分参数放入内存,又会与MoE的动态多样性与平衡性相违背,带来精度下降。
无问芯穹本次提出的终端本征架构,引入了重参数机制,将若干个相邻MoE层划成一组,复用Expert专家参数。这样一个原本30层MoE层的模型,原始总参数量21B。现在每3层共享参数相互复用,模型的实际总参数量下降到21/3即7B大小,但激活可用的专家池空间仍为21B。
此外,本次发布的Megrez 2.0为Preview版本,虽然训练数据量只有5T Tokens,但已表现出优异的精度潜力。相较于国内外主流的端侧模型,我们的模型速度相比同内存占用的模型快50%,精度比同尺寸稠密模型提升36%,内存则是比同精度模型节约75%,真正做到高能效、少内存、高智能。
Benchmark | Megrez2-3x7B-A3B-Preview | Qwen3-8B | Phi-4-mini |
MMLU-Pro | 67.6 | - | 52.8 |
IF-Eval | 80.2 | 83 | 68.6 |
当端侧级算力撬动起云侧级模型的智能水平,智能体等AI应用将得以在端侧释放更大的能动性。由Megrez2.0加持的终端设备,代理任务处理准确率高达95%,复杂代理任务端侧处理时间只需不到3分钟。此外,Megrez2.0还通过巧妙的工程设计,赋予终端设备更强的能动性,使设备在用户无感知的“休眠时段”里,也能持续创造价值。
发布会现场,Megrez2.0的研发团队为大家带来了一个令人激动的演示——用户在电脑合盖之前给出语音指令“整理今日会议记录”。电脑合盖后,系统自动调度闲置CPU周期执行后台任务,等任务完成后,则自动释放内存并转入待机。唤醒设备时,整理好的会议纪要已完整呈现在电脑上,算力亦能瞬时恢复满血状态,并且全程无唤醒、无联网、无发热。
编辑丨赵雅鑫