大数据文摘编译
从最早的GPT-2模型算起,短短六年间,模型参数数量从1亿级飙升到数百亿、数千亿,甚至跃升至“万亿级”大关。
2019年,OpenAI发布GPT-2系列模型,参数分别为1.37亿、3.8亿、8.12亿和16.1亿,训练数据大约为100亿个token。这一系列模型奠定了大语言模型的技术基础。
2020年,GPT-3横空出世,以1750亿参数刷新业界认知。其训练数据多达4000亿个token,数据源包括CommonCrawl、WebText2、Books和Wikipedia等。GPT-3的诞生标志着AI模型进入“超大规模”阶段,也成为后续技术发展的参照系。
此后几年,GPT-3.5和GPT-4接连问世,尽管官方未公布架构细节,但它们显然进一步扩大了参数规模和数据体量,推动了AI能力的飞跃。
Meta在2023年也参与了这场竞赛,发布了LLaMA模型。LLaMA-65B使用了1.4万亿个token进行训练,其中包括被争议的Books3数据集。此举在法律和伦理层面引发广泛关注,也间接推动了对训练数据合法性的立法讨论。
到了2024年,Meta推出了Llama-3.1模型,参数规模达4050亿,是当时最大的可下载密集模型。其训练token数量高达3.67万亿,涵盖初始训练、长上下文训练和“退火”阶段。
所谓“退火”,指的是模型在少量高质量代码和数学数据上进行二次训练,用以提升在特定基准测试中的表现。这一做法引发了争议,因为它偏离了模型作为“文本续写引擎”的初衷,更像是将预训练阶段“助教化”。
2025年,Llama-4家族出现了一款参数规模达2万亿的模型,这是目前已知最大的模型,采用了混合专家(MoE)架构:16个专家模块中每次激活2880亿参数。然而,由于Meta在基准测试平台lmarena上“调包”行为曝光,引发学术丑闻,团队信任度暴跌,这款模型最终未能正式发布。
在密集模型发展暂缓的同时,MoE架构悄然登上主舞台。
MoE(Mixture-of-Experts)架构允许模型通过选择性激活部分参数,在保证推理效率的同时,提升总体规模。2023年底,Mistral公司发布Mixtral 8x7B模型,首次将MoE概念引入开源社区。
2024年4月,Mixtral-8x22B问世,拥有1410亿总参数,每次仅激活390亿参数。MoE架构的优势使得普通开发者也能运行超大模型,极大推动了开源生态的发展。
同年12月,DeepSeek发布V3 Base模型,参数高达6710亿,每次推理启用370亿,训练数据更是达到惊人的14.8万亿token。这一模型一经发布,其推理能力逼近GPT-4,被认为是首个真正可媲美GPT-4的开源模型。
更令人震惊的是,这款模型的发布居然一度导致英伟达(NVDA)股价短暂下跌,资本市场显然已意识到其潜在冲击。
DeepSeek之后,一批大型MoE模型接连问世,特别是在中国。
2024年3月,Databricks发布DBRX模型,总参数1320亿,激活参数360亿,采用16个专家中选4的精细MoE策略。其性能在多项基准测试上得分高于Mixtral 8x7B和Grok-1。
2025年1月,MiniMax发布4560亿参数模型MiniMax-Text-01,激活参数为459亿,并使用前代模型进行奖励标注,体现出对训练流程的持续优化。
2025年6月,三家公司——小红书、腾讯、百度——分别发布了Dots、混元、ERNIE系列模型,构成最新一波“国产大模型潮”。
Dots模型总参数1430亿,激活参数140亿,训练数据为11.2万亿token,采用“精细MoE+共享专家”架构,推理效果已可对标Qwen2.5-72B。
小红书开源首个 AI 文本大模型:11.2T 精炼语料吊打海量数据,证明“大模型≠大数据”
腾讯的混元模型拥有800亿总参数,激活130亿,支持长达25.6万token的上下文处理,训练数据高达20万亿token。它采用了GQA(Grouped Query Attention)机制,并在MoE中引入了始终活跃的“共享专家”。
而最近,百度ERNIE 4.5模型则达到了4240亿总参数,激活470亿,并进入了多模态阶段,支持图文输入。尽管训练token总量未公开,但据称达到“万亿级”。
这些开源MoE模型的相继发布,彻底改变了模型可得性的格局。从几年前的“几乎没有公开可用的GPT-3级模型”,到如今多个超400B参数的模型可以自由下载,产业门槛被迅速拉低。
曾经开发者不得不拿70B的LLaMA模型“凑合”,通过GPT-3生成的数据进行微调。但这种“AI训练AI”的循环,常常导致模型退化,形成“生成病变”。
405B密集模型的发布,是一次技术断裂点。而随后的MoE潮流,则彻底改变了格局。
值得注意的是,MoE模型虽然拥有超大参数量,但每次推理仅使用一小部分参数,其“密度”远不及密集模型。这引发了关于“深度是否决定智能”的讨论。
一些研究者认为,只有具备足够密度的神经网络,才能孕育出真正意义上的推理能力。但目前的自动化基准测试无法捕捉这种“结构智能”,因而厂商更倾向于堆叠参数、刷分取胜。
与此同时,新的架构和训练策略也在不断尝试。
RWKV、Byte-latent、BitNet等新型结构正悄然出现,一些团队甚至开始用合成数据替代真实文本,以规避版权问题。
然而这些手段的效果仍存疑。真正决定AI能力的,可能仍是最原始的“文本续写能力”——这也是所有语言模型的本质所在。
via https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e
作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!