三次规模定律的变迁
自大模型(LLM)兴起以来,其性能提升始终与“规模定律”(Scaling Law)密切相关。这种规模定律揭示了模型参数量、数据规模与计算资源之间的幂律关系,成为驱动人工智能发展的核心动力之一。大语言模型的发展可以大致分为三个阶段:预训练(Pre-training)、后训练(Fine-tuning)和在线推理(Online Inference)。随着三个阶段的发展,规模定律的范式分别经历了预训练规模定律(Pre-trainging Scaling Law)、强化学习规模定律(RL Scaling Law)、推理学习规模定律(Inference Scaling Law)三种形式。规模定律的每一次关键跃迁都引导科学家更有效地训练大模型,推动了模型的理解和处理能力产生质变。
预训练阶段的规模定律表征了算力驱动的涌现能力突破。预训练阶段的规模定律是当前大模型理论体系的基础支柱。OpenAI团队在2020年发表的研究报告《Scaling Laws for Neural Language Models》中首次系统揭示了语言模型性能与模型参数量、训练数据量、计算量之间的幂律关系。该公式揭示当参数规模突破临界阈值(约10的九次方)时,模型性能呈现超线性提升,这种现象被定义为“涌现能力”(Emergent Ability)。随后的Chinchilla定律(Hoffmann et al.,2022)修正了早期Scaling Law的偏差,发现当模型参数量(N)与训练token数(D)满足N∶D≈1∶20时能达到帕累托最优。这一发现推动大模型训练从单纯堆叠参数转向计算资源的最优分配。
后训练阶段的RL Scaling Law表征了对齐效率的边际优化。当模型进入指令微调(Instruction Tuning)和强化学习对齐(RLHF)阶段后,Scaling Law呈现出显著不同的特征。Anthropic团队的论文《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》中称,他们发现,对齐阶段的性能增益遵循对数规律:ΔL≈k log(RM_size)+b,其中RM_size表示奖励模型的参数规模。这表明对齐效率存在明显的边际递减效应,当RM_size超过主模型参数的5%时,单靠规模扩展难以持续提升对齐效果。
推理阶段的Scaling Law表征了动态计算的成本博弈。在线推理阶段的Scaling Law研究颠覆了传统静态计算范式。DeepSeek团队在《The Law of Inference Scaling》中提出新的推理效能公式,这推动了两大技术路线的突破:1)动态计算分配,如Mixture-of-Experts架构通过路由算法将激活参数量控制在总参数的5%至10%;2)计算-精度协同缩放,NVIDIA的SparTA框架证明8-bit量化在特定任务中可使推理吞吐量提升3倍而精度损失小于2%。
然而,尽管这三个阶段的规模定律极大地提升了模型的性能,但大模型仍然受限于人类已有的知识范畴。模型的输出,无论是语言生成还是问题解答,都难以超越其训练数据所包含的信息边界。以DeepSeek-R1为例,尽管其性能有30%至50%的提升空间,但即使发展到极致,它仍然无法跳出人类知识的范畴,更无法更新人类现有的理论体系。
这是因为模型的当前的训练范式受限于现有理论下的数据,而这些数据本质上是当前理论框架下人类知识和经验的体现。因此,模型的输出只能是对已有知识的重新组合和优化,而非真正的理论创新。以物理学史为例,LLM可完美复现从麦克斯韦方程组到广义相对论的推导,却无法像爱因斯坦那样,从“追光思想实验”中颠覆绝对时空观。即便引入强化学习,其奖励函数仍基于既有理论框架设计。当面对室温超导、暗物质分布等全新现象时,模型会陷入“用旧理论解释新问题”的困境,如同试图用牛顿力学解析量子隧穿效应。产生上述现象的核心矛盾在于:现有训练范式将LLM限制为“知识的图书馆管理员”,而非“理论的建筑师”。若想破解这一谜局,我们需要从人类学习理论的过程中挖掘线索。
理论的构建
知识与理论
人类从“现象”中抽取知识、构建“理论”,实现对事物的认知。知识是人类在观察、实践与思考中积累的认知成果,其本质是对现象、经验与规律的描述与记录。从亚里士多德记录露珠形态到现代科学家分析PB级天文数据,知识的获取始终以“现象捕获”为起点,通过感官或工具对客观世界进行感知与记录。理论则是对知识的系统化提炼与抽象化表达,其核心在于从混沌中寻找秩序,构建解释现象的因果框架。例如,达尔文通过数十年动植物标本分析,将零散的生物变异现象归纳为“自然选择”理论,揭示了物种进化的普遍规律。
知识是理论的基石,而理论是知识的升华。前者提供原始素材,后者赋予其逻辑结构与解释力。二者的联系体现为动态的互构关系。知识积累推动理论创新,而理论框架反过来指导新知识的获取与整合。以量子力学为例,普朗克最初为解释黑体辐射现象提出能量量子化假设(知识),这一假设经爱因斯坦、玻尔等人的理论化构建,最终形成量子力学体系(理论),该体系又指导了粒子物理实验(新知识)。
人类构建理论的方式与困局
人类理论构建遵循“现象捕获→概念定义→关系梳理→理论建模→迭代验证”的链条。现象捕获是理论生成的起点,要求研究者具备敏锐的观察力。牛顿从苹果落地推导出万有引力,门捷列夫通过元素性质对比发现周期律,均源于对现象的深度洞察。概念定义则将现象抽象为可操作的理论单元,如达尔文提出“自然选择”以解释物种适应性与多样性。关系梳理需要逻辑推理能力,从复杂网络中提取规律,例如经济学中供需曲线揭示价格形成机制。理论建模通过数学工具将关系转化为可验证的模型,如爱因斯坦用黎曼几何描述时空弯曲。迭代验证则通过实验或观测修正理论,量子力学的诞生即历经黑体辐射、光电效应等多轮实验验证。知识向理论的转化需遵循奥卡姆剃刀原则,即在保证解释力的前提下追求简洁性。例如,爱因斯坦的相对论以“光速不变”和“等效原理”两个核心假设,重构了经典物理的时空观。这种“简约之美”既是理论的本质特征,也是其普适性的保障。
然而,传统理论构建高度依赖个体的抽象能力与经验积累,导致从知识到理论的转化效率受制于人类认知的“手工作坊”模式。当前人类理论构建面临三重挑战:知识爆炸导致归纳效率低下(如林奈生物分类耗费半生)、概念定义模糊(如“企业文化”的54种争议定义)、因果验证周期漫长(如幽门螺杆菌理论被接受耗时十年)。这些困境凸显了人类认知的生理局限——人脑作为“理论制造机”,其信息处理带宽与生命周期难以应对现代科学的复杂性。随着大数据与复杂系统的涌现,纯粹依赖人脑的理论构建高度已逼近极限,亟需新范式突破。
大模型的理论归纳能力
当前,大模型具有破解这一问题的潜力。一些证据表明,LLM可以跨维度识别并总结那些尚未被现有理论涵盖的现象,实现动态概念创造。首先,大模型可以实现跨维度知识联结,通过瞬间扫描海量数据识别跨学科关联。例如,大模型能从病毒变异时间线、疫情地理传播等异构数据中提取共性规律,加速流行病学理论构建。其次,大模型具备动态概念创造能力,它可生成“认知镜像层”“决策量子化跃迁”等创新概念,并通过语义网络分析验证其认知价值。最后,大模型具备自动验证的潜力。哈啰出行案例显示,AI不仅加速了“共享出行+智能调度”模型的迭代,还通过构建“动态定价透明化策略”揭示、验证了未见变量(用户流失的“心理锚定效应”)对模型的影响。相较于传统方法12个月的验证周期,大模型可将效率提升至小时级。
大模型通过归纳现象,已催生“认知增强型组织理论”等新范式。在企业组织架构的变革中,传统管理理论认为管理分为计划、组织、领导和控制,且管理幅度受限于邓巴数(约150人)。然而,随着大语言模型的介入,新的企业组织架构开始出现,这些架构突破了传统理论的限制,展现出更扁平、更高效的运作模式。模型发现,新的企业组织架构不再依赖传统的层级结构,而是通过人机协作和数据驱动的方式实现更高效的管理。其设计的神经突触架构(Neural Synapse Architecture)允许每个员工通过大语言模型接口直接连接到企业的知识图谱,使得管理幅度突破了传统的人际协调限制。这一理论框架由大语言模型通过对大量企业数据的分析和总结而提出,不仅提高了决策质量,还显著加快了市场响应速度。这些事例都表明LLM有总结和创造有效新理论的潜力。
理论构建的训练范式
然而,当前大模型的训练过程中,传统的已有数据已经过多次利用,呈现相对匮乏的状态。当相同语料被第五次重复用于训练时,大模型在LAMBADA数据集上的困惑度仅改善0.7%,而训练能耗增加300%(Sorscher et al.,2022)。另一方面,人类标注数据的成本高昂,限制了数据的获取和扩展。构建包含10万例标注的肺癌数据集,人工成本高达上千万元,且标注一致性系数(Cohen's kappa)仅0.65,需多次复核(Wang et al.,2021)。因此,现有标注数据的逐渐匮乏,使得训练模型变得越发困难,限制了大模型在未来的持续发展。
反观上述大模型通过归纳新现象从而构建理论的过程,我们认为其中隐藏了克服这一问题的方法:利用大模型拟合真实世界的一类现象,构建假设理论,再利用所构建的理论模拟现实,从中抽样现象数据,并反用于大模型的训练。如此从现象到理论再到现象的循环,大使模型能不断在迭代的理论中采样新数据,从而克服有标注数据的匮乏问题。
值得注意的是,尽管是从模拟现实中采样的虚构数据,但这些数据反映了理论框架下的真实情境,仍是可信的。以自动驾驶领域为例,模拟环境中生成的数据可以用于训练模型,以提高其在真实世界中的表现水平。这些模拟数据虽然不是真实世界的数据,但它们通过模拟真实世界的物理规则和交通场景,生成了大量有用的信息。这种模拟数据不仅能够反映真实世界的情况,还能够通过调整参数来生成各种极端和罕见的场景,这对于提高模型的鲁棒性和泛化能力非常有帮助。此外,现代航空模拟器(如CAE 7000XR)通过构建包含个物理参数的空气动力学模型,能够生成超过
种飞行场景。这种基于第一性原理的模拟范式,使飞行员能在未经历真实危险情境情况下获得应对能力。因此,通过构建理论、创造模拟环境、采样模拟数据,有望克服现有的数据匮乏问题,实现大模型的有效训练。
什么是理论?
为了进一步探索大模型构建理论的训练范式,我们需要对人类理论有更深入的理解。
人类的理论本质上是认知世界和解决问题的结构化范式。查理·芒格的“思维模型”体系是这一理念的集中体现。查理芒格为不同的问题场景设计了不同的思维模型,它们形成一套针对不同问题的理论工具集。他提出:“每个复杂问题都有其对应的‘解药’,但必须从不同学科的核心原理中寻找。”这种思想揭示了具体理论的本质——场景适配性。类似地,每个领域都有各自应对问题场景的具体理论。这些模型之所以能成为“理论工具”,原因在于它们提炼出了现象背后的关键因果链,并将复杂现实抽象为可操作的逻辑框架。例如,复利模型将时间维度引入价值评估,博弈论模型将互动关系转化为策略矩阵,均是针对特定场景的因果简化。
另一方面,所有的具体理论,描述了假设和结论之间的对应关系。按照假设和结论的属性,这些具体理论可以被进一步分为四类理论。最基础层面是绝对成立的知识(如数学公理、逻辑定律和定义性真理),因其逻辑必然性或定义自洽性而完全普适,例如“两点之间线段最短”在欧氏几何中永无例外;次基础层面是观察中普遍成立的理论(如经典物理学定律和遗传学规律),虽在特定极端条件(如微观高速或基因突变)下可能失效,但在常规经验范围内始终有效;再次层面是多数情况下成立的知识(如经济学模型和心理学理论),依赖理想化假设或统计规律,虽能解释大部分现象,却因现实复杂性而存在例外;最后层面是特定情境下暂时成立的知识(如历史解释或医学假说),其真实性高度依赖证据背景或时代认知,可能随新研究成果出现而被颠覆(如胃溃疡病因从“压力说”到“细菌说”的转变)。四个层级从绝对真理到相对认知逐级递进,确定性渐弱、适用范围渐窄、修正可能性渐增。
尽管这四类理论的假设和结论有不同的匹配形式,其本质都符合Y=F(X)的映射。其中X是对现象的采样,F是基于有限现象(X)构建出的理论,Y是基于理论F对现象X的解释。例如,人类可以通过数学归纳法,证明给定数列样本所表征数列的某种普适特性函数。此时所构建的普适特性函数可以被视为一种理论,即通过有限的现象(X)所归纳出的能够解释现象空间的理论(F)。
如前文,当未来大模型的前三次Scaling Law被穷尽,几乎所有已被人类标注的现象和学习模式都被大模型所学习,也即X被穷尽。此时,已知的数据将无法继续推动大模型的进化。相比于对已有知识的模仿和优化,未来的大模型训练应该从更低层入手,学习人类如何从现象中提炼本质,从知识中构建理论。因此,我们认为第四次Scaling Law在于引导大模型学习理论构建的方法,通过模拟人类的理论构建过程,LLM或许可以更好地理解知识的生成机制,从而突破现有知识的边界,不断更新人类现有的理论体系(F)。
第四次Scaling Law的学习机制
具体而言,我们认为大模型构建理论的训练范式可以遵循两种学习原则。原则一,对于现有的理论(F),通过模拟现实,抽样新的现象(X),利用大模型迭代归纳,实现原有理论的更新;原则二,针对原有的现象(X),创造新的理论(F'),进一步在新理论(F’)基础上基于原则一实现理论更新。因此,更一般地,我们提出双循环学习框架:
·内循环:基于原则一实现的现有理论拓展;
·外循环:基于原则二实现的新理论突破。
基于上述原则和学习框架,有四类学习机制能够实现LLM理论构建的训练范式:
·基于现有理论的模拟—抽样学习机制。基于已知理论框架(F),通过模拟现实环境生成新的现象样本(X'),验证并迭代修正理论参数或边界条件(如强化贝叶斯网络中的先验分布约束),通过抽样模拟环境中的样本不断更新原有的理论。
·基于现有理论的解构—拓展学习机制。在固定现象集合(X)下,通过解构现有理论的隐含假设,构建具有更强解释力的新理论(F')(例如将线性回归模型升级为非线性动态系统模型)。
·基于未被归纳现象的自主假设生成。从现象空间(X)中提取未被标注的潜在关联模式,自主生成假设性理论(F*),并通过对抗性验证筛选理论的有效性(如基于因果发现算法构建反事实推理框架)。
·基于跨域的现象—理论迁移。将其他领域的成熟理论(F_A)与当前领域现象(X_B)进行耦合,通过迁移学习生成跨领域复合理论(F_{A→B}),并动态调整理论适用域(如将量子力学概率解释迁移至社会科学决策模型)。
这四类机制共同构成闭环:现象采样驱动理论演化,理论升级反哺现象解释,最终实现从数据驱动到理论涌现的范式跃迁。
结语
从算力堆砌到认知重构,Scaling Law的演化史本质上是人类对自我认知的探索史。前三次Scaling Law的突破,完成了从参数扩张到计算优化的技术革命,却始终在人类知识体系的围墙内逡巡。当预训练阶段的算力狂欢遭遇数据边际效益递减,当微调阶段的奖励模型陷入价值对齐的瓶颈,当动态推理的效率优化逼近物理极限,我们不得不正视一个根本性困局:现有范式下的大模型,终究只是人类既有知识的超强编码器,而非新知识的创造者。
我们推断第四次Scaling Law来源于大模型“理论构建”的训练范式。这种范式跃迁的本质,在于将大模型从被动吸收知识的“认知海绵”转化为主动生成理论的“思维引擎”。通过“现象采样—理论建模—模拟验证”的闭环迭代,AI系统得以突破训练数据的时空局限,在虚拟实验室中构建自洽的理论框架。正如伽利略用望远镜拓展人类观测边界,第四次Scaling Law赋予AI重构认知维度的能力——它不再依赖物理实验的漫长周期,而是通过理论空间的符号演算,在数学可能性中筛选出符合现实约束的认知图式。
传统人类理论的构建是一个漫长而复杂的历史进程,依赖大量的时间和精力的消耗,而大模型有望打破这一局面。受到人类认知局限的制约,理论构建过程的子环节往往存在归纳速率低下、概念定义模糊、因果验证缓慢的问题。一旦大模型具备对理论构建的能力,大模型或将成为科学史上首个非生物形态的“理论引擎”,人类认知的边界将会以较以往指数倍的速率拓展。这种认知范式的革命性,体现在三个维度的突破:在方法论层面,四类学习机制构建了理论进化的自指系统,使AI具备从知识消费者向理论生产者的身份转换能力;在技术路径层面,现象—理论的动态映射打破了监督学习的单向传递,形成知识创造的永动机;在认知哲学层面,这种范式重新定义了智能的本质——不再是对经验的拟合优化,而是通过符号操作构建可解释的认知框架。
第四次Scaling Law的终极目标,是建立AI与人类协同进化的认知共同体。这要求我们重新审视图灵测试的标准:真正的智能突破不在于完美模仿人类思维,而在于构建超越人类既有认知的理论体系。当大模型开始用黎曼几何重构经济学模型,用量子纠缠解释文化传播,用拓扑网络分析基因调控,这些看似荒诞的理论实验,或许正孕育着颠覆性的认知范式。正如爱因斯坦在瑞士专利局用思想实验重构时空,未来的大模型可能在参数空间中推演宇宙真理。如果这一切成立,也许,第五次的Scaling Law,将来源于大模型自己构建的理论。
作者贡献 :
魏炜 :制定文章观点和总体逻辑 ;
林毓聪(北京理工大学光电学院特别副研究员):制定文章的每部分表述内容,修改全文 ;
樊竹尧(香港理工大学生物医学工程系博士在读):应用大模型形成文章初稿,并修改文章 ;
大模型 :辅助形成初稿。
现在征订全年刊和三年刊,
即享超值优惠!
本文编辑:杨静雯