Minimax发布并开源新模型：4560亿参数，支持400万超长上下文

腾讯科技

2025-01-15 14:38发布于北京腾讯新闻科技频道官方账号

+关注

腾讯科技特约作者晓静

编辑郑可君

1月15日，MiniMax发布并开源了MiniMax-01全新系列模型，其中包含两个模型，基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。根据Minimax官方介绍，为了方便研究者做研究，此次已经将两个模型完整权重开源。

据悉， MiniMax-01系列模型中，在模型架构上做了创新：首次大规模实现线性注意力机制，传统Transformer架构不再是唯一的选择。这个模型的参数量高达4560亿，其中单次激活459亿，同时能够高效处理最长400万token的上下文，是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。新模型API定价仅为token 1元/百万token，输出token 8元/百万token。

在模型架构创新方面，Minimax使用的结构如下图所示，其中每8层中有7个是基于Lightning Attention的线性注意力，有1层是传统的SoftMax注意力。

根据官方介绍，这是业内第一次把线性注意力机制扩展到商用模型的级别，从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面做了综合的考虑。Minimax几乎重构了训练和推理系统，包括更高效的MoE All-to-all通讯优化、更长的序列的优化，以及推理层面线性注意力的高效Kernel实现。

基于业界主流的文本和多模态理解测评，MiniMax-01系列模型在大多数任务上追平了GPT-4o-1120以及Claude-3.5-Sonnet-1022，结果如下图所示。在长文任务上，随着输入长度变长，MiniMax-Text-01是性能衰减最慢，优于Google的Gemini。

图：随着输入长度变长，MiniMax-Text-01是性能衰减最慢

查看原图 234K

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。