1.Meta发布了Llama 4系列模型,包括Scout、Maverick和Behemoth三个版本,具有多模态、长上下文和超低成本等特点。
2.Scout版本支持1000万token上下文,适合本地部署,参数规模行业领先。
3.Maverick版本参数高达4000亿,推理时仅激活部分专家,效率更高,多模态性能超越GPT-4o。
4.然而,Llama 4在实战表现上尚未超越DeepSeek等竞争对手。
5.尽管如此,Meta的Llama 4模型仍被认为是目前最香的开源大模型之一。
以上内容由腾讯混元大模型生成,仅供参考
Llama 4系列模型发布:
Llama 4 Scout(小)
单张H100 GPU可运行,适合本地部署,支持 1000万token上下文,这是行业最牛成绩。
Llama 4 Maverick(中)
总参数高达4000亿,但推理时仅激活部分专家,效率更高。
多模态性能超越GPT-4o,在ChartQA、DocVQA等基准测试中领先,编程能力媲美DeepSeek v3,但参数仅一半。
Llama 4 Behemoth(大,预览版)
Meta 2万亿参数巨兽,仍在训练中。
超大参数,据说STEM任务超越GPT-4.5、Claude3.7等。
将作为“教师模型”,用于蒸馏优化更小的Llama 4模型。
测评分数高居全球第二
而且具备原生多模态能力:Llama 4采用了早期融合(Early Fusion)技术,可以用海量的无标签文本、图片和视频数据一起来预训练模型。
超长上下文:
Scout 版本支持 1000万 tokens(约15000页文本!),医学、科研、代码分析等超长文档处理能力直接拉满。
在其他大模型仅有200万 tokens上下长度时,小扎掏出了大炸雷,不想和大家闲聊。
几个核心技术
MoE架构效率炸裂:
Llama 4开始转向采用混合专家模型(MoE),推理时仅激活部分参数,成本更低——Maverick 推理成本仅 $0.19/百万token,比GPT-4o便宜90%。
iRoPE实现超长上下文:
iRoPE(交错旋转位置编码)是Meta为Llama 4设计的升级版位置编码技术。
局部注意力层:用旋转位置编码(RoPE)处理短上下文(如8K token),保留位置关系。
全局注意力层:直接去掉位置编码(NoPE),通过动态调整注意力权重处理超长内容,类似“模糊匹配”长距离关联。
就像读书时用书签(RoPE)标记重点段落,同时靠记忆(NoPE)串联全书脉络。
埋葬RAG技术?
视频内容推荐:
主理人交流: