客户端
游戏
无障碍

2

评论

7

6

手机看

微信扫一扫,随时随地看

Minimax发布并开源新模型:4560亿参数,支持400万超长上下文

腾讯科技特约作者 晓静

编辑 郑可君

1月15日,MiniMax发布并开源了MiniMax-01全新系列模型,其中包含两个模型,基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。根据Minimax官方介绍,为了方便研究者做研究,此次已经将两个模型完整权重开源。

据悉, MiniMax-01系列模型中,在模型架构上做了创新:首次大规模实现线性注意力机制,传统Transformer架构不再是唯一的选择。这个模型的参数量高达4560亿,其中单次激活459亿,同时能够高效处理最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。新模型API定价仅为token 1元/百万token,输出token 8元/百万token。

在模型架构创新方面,Minimax使用的结构如下图所示,其中每8层中有7个是基于Lightning Attention的线性注意力,有1层是传统的SoftMax注意力。

图片

根据官方介绍,这是业内第一次把线性注意力机制扩展到商用模型的级别,从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面做了综合的考虑。Minimax几乎重构了训练和推理系统,包括更高效的MoE All-to-all通讯优化、更长的序列的优化,以及推理层面线性注意力的高效Kernel实现。

基于业界主流的文本和多模态理解测评,MiniMax-01系列模型在大多数任务上追平了GPT-4o-1120以及Claude-3.5-Sonnet-1022,结果如下图所示。在长文任务上,随着输入长度变长,MiniMax-Text-01是性能衰减最慢,优于Google的Gemini。

图片

图:随着输入长度变长,MiniMax-Text-01是性能衰减最慢

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
天呐!腾讯出的AI神器,是真把AI给玩明白啦!
广告腾讯元宝
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部