腾讯科技特约作者 晓静
编辑 郑可君
1月15日,MiniMax发布并开源了MiniMax-01全新系列模型,其中包含两个模型,基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。根据Minimax官方介绍,为了方便研究者做研究,此次已经将两个模型完整权重开源。
据悉, MiniMax-01系列模型中,在模型架构上做了创新:首次大规模实现线性注意力机制,传统Transformer架构不再是唯一的选择。这个模型的参数量高达4560亿,其中单次激活459亿,同时能够高效处理最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。新模型API定价仅为token 1元/百万token,输出token 8元/百万token。
在模型架构创新方面,Minimax使用的结构如下图所示,其中每8层中有7个是基于Lightning Attention的线性注意力,有1层是传统的SoftMax注意力。
根据官方介绍,这是业内第一次把线性注意力机制扩展到商用模型的级别,从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面做了综合的考虑。Minimax几乎重构了训练和推理系统,包括更高效的MoE All-to-all通讯优化、更长的序列的优化,以及推理层面线性注意力的高效Kernel实现。
基于业界主流的文本和多模态理解测评,MiniMax-01系列模型在大多数任务上追平了GPT-4o-1120以及Claude-3.5-Sonnet-1022,结果如下图所示。在长文任务上,随着输入长度变长,MiniMax-Text-01是性能衰减最慢,优于Google的Gemini。
图:随着输入长度变长,MiniMax-Text-01是性能衰减最慢