发现大模型规律的不是OpenAI？外网称最早研究来自中国百度

科技考拉Koala

2024-12-31 18:09发布于北京科技领域创作者

全文2174字，阅读约需7分钟，帮我划重点

划重点

01百度被外界认为是大模型预训练第一性原理Scaling Law最早的原始研究来源，而非OpenAI。

02事实上，在OpenAI之前，百度已经更早贡献了对Scaling Law的原始研究，一直在自然语言处理领域投入。

03其中，百度的深度学习研究院成立于2013年1月，被认为是全球企业界第一家用深度学习来命名的研究院。

04然而，尽管百度贡献了对Scaling Law的原始研究，李彦宏很早就提出了预训练模式的局限性，认为这种模式适合头部大厂。

05根据2024百度世界大会上的规划，百度希望为AI应用打造一套全新的大模型基础设施，包括智能体平台、无代码工具、智能云计算等。

以上内容由腾讯混元大模型生成，仅供参考

在Scaling Law的发现和研究中，百度和OpenAI实际又各自扮演了什么角色？

原创｜科技考拉

外网最近超热闹的。多位AI大佬在社交媒体下场爆料，称大模型预训练第一性原理Scaling Law最早的原始研究来自百度，而非外界一直以为的OpenAI。

南华早报则发表了报道《Did China’s Baidu discover scaling laws before OpenAI? A debate rekindles in AI circles》，称「尽管美国在AI模型创新方面一直被视为领先者，但最新的讨论显示，中国在探索这些概念上可能更为超前」，进一步把视野和格局拉升到了中美AI竞赛的高度。

这到底是怎么回事？在Scaling Law的发现和研究中，百度和OpenAI实际又各自扮演了什么角色？

谁贡献了最早的Scaling Law研究？

在过去几年中，业界的普遍认知是，关于Scaling Law的第一篇有效论文，是OpenAI在2020年发表的《Scaling Laws for Neural Language Models》。

第一个公开声明百度对Scaling Law贡献的，是Anthropic创始人兼CEO Dario Amodei。Anthropic被熟知的产品是Claude，和GPT、Gemini并称美国模型界「三巨头」，Dario Amodei本人的履历则显示，2014年11月- 2015年10月期间，他在百度硅谷人工智能实验室（SVAIL）工作。

按照Dario Amodei的说法，2014年与吴恩达在百度研究语音识别的时候，他们就非正式观察到了Scaling Law，「给这些模型的数据越多、计算越多、训练越多，它们的表现就越好」，不过当时没有精确衡量。

随后，越来越多行业人士开始发声爆料。

Meta研究员、康奈尔大学博士候选人Jack Morris称，「大多数人不知道，关于缩放定律的原始研究来自 2017 年的百度，而不是 2020 年的 OpenAI。他们描述了模型参数和数据集标记对损失的影响。还对图像和音频进行了测试。他们只是用 LSTM 代替了 Transformers，而且没有将他们的发现命名为定律」。

他提到的，是2017年发表的论文《DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY》，文章讨论了机器翻译、语言建模等领域的Scaling现象，第一作者为Joel hestness。公开资料显示，2017年-2019年，Joel hestness在百度工作。

有爆料称，曾在Open AI参与了GPT-3等项目开发的AI专家Gwern Branwen经常提起，「这篇论文的重要性是相当被忽视的」。

然后有人发现，OpenAI的《Scaling Laws for Neural Language Models》中，其实还引用了Joel Hestness2019年的论文《Beyond human-level accuracy: computational challenges in deep learning》。

时间线捋明白后，事情就变得非常清晰了。

在OpenAI之前，百度已经更早贡献了对Scaling Law的原始研究。事实上在Scaling Law最初被观察到的自然语言处理领域，百度也是最早下场的玩家之一，并一直在坚持投入。

百度的深度学习研究院成立于2013年1月，据说是全球企业界第一家用深度学习来命名的研究院。图灵奖得主、Meta首席AI科学家杨立昆在《科学之路》中文版的自序中称，「百度是最早部署商业化深度学习系统的大型公司之一，领先于谷歌和微软」。

AI竞赛，新一轮技术博弈

众所周知，百度在国内一向有「AI人才的黄埔军校」之称，走出了许多知名的AI赛道创业者。Dario Amodei这次的发声，则让外界意识到，即使把视角放到国际AI领域，这一结论也仍然成立。

百度同样走出了不少国际AI大拿，包括美国头部AI企业的一些核心人物。

在百度硅谷AI实验室（SVAIL）做研究员，是Dario Amodei从斯坦福博士毕业后的第一份工作，后来他曾加入谷歌和OpenAI，2021年创立了Anthropic。

在百度任职期间，Dario Amodei招募Jim fan进入SVAIL工作。Jim fan现在是英伟达高级科学家、人工智能一号位。

更被人熟知的是曾在百度担任首席科学家的吴恩达。李彦宏曾在采访中提到，当时吴恩达在谷歌做Google brain，他想买更多的GPU，但谷歌认为成本太高了，「我们说你来，随便买，他就来了」。

不论是技术理念、资源投入、人才挖掘，还是在战略视野上，百度都展现出了在AI领域的高度前瞻性。

一个既定趋势是，AI已经成为新的技术博弈赛场。芯片、算力、模型性能、人才储备等，都将是这一轮AI竞赛的关键赛点。

前谷歌CEO Eric Schmidt将这场竞赛称作「史诗般的较量」，并表示，中国推出了一些与美国最先进模型相似的模型，还学会了用更少的芯片完成工作，「这表明了他们工程师的能力」。

值得注意的是，尽管百度贡献了对Scaling Law的原始研究，但李彦宏很早就提出了预训练模式的局限性。Scaling Law之所以有「暴力美学」之称，就是因为预训练对算力和经济投入的极高要求，在国内的商业环境下，这种模式注定只适合头部大厂。

因此，李彦宏一直在倡导「中国AI的发展特色应该是应用驱动」。百度则希望为AI应用打造一套全新的大模型基础设施。根据2024百度世界大会上的规划，这套基础设施应当包括智能体平台、无代码工具、智能云计算等在内。

或许，在中美AI竞赛中，这样的中国特色思路也会推动产生一些变化。毕竟，如果复盘移动互联网所带来的上一轮产业变迁，也可以找到非常明显的中国特色。

精选推荐

科技考拉是搜狐号科技年度作者，由前AI财经社互金项目主编杨舒芳主理。

查看原图 79K