划重点
01百度被外界认为是大模型预训练第一性原理Scaling Law最早的原始研究来源,而非OpenAI。
02事实上,在OpenAI之前,百度已经更早贡献了对Scaling Law的原始研究,一直在自然语言处理领域投入。
03其中,百度的深度学习研究院成立于2013年1月,被认为是全球企业界第一家用深度学习来命名的研究院。
04然而,尽管百度贡献了对Scaling Law的原始研究,李彦宏很早就提出了预训练模式的局限性,认为这种模式适合头部大厂。
05根据2024百度世界大会上的规划,百度希望为AI应用打造一套全新的大模型基础设施,包括智能体平台、无代码工具、智能云计算等。
以上内容由腾讯混元大模型生成,仅供参考
在Scaling Law的发现和研究中,百度和OpenAI实际又各自扮演了什么角色?
原创|科技考拉
外网最近超热闹的。多位AI大佬在社交媒体下场爆料,称大模型预训练第一性原理Scaling Law最早的原始研究来自百度,而非外界一直以为的OpenAI。
南华早报则发表了报道《Did China’s Baidu discover scaling laws before OpenAI? A debate rekindles in AI circles》,称「尽管美国在AI模型创新方面一直被视为领先者,但最新的讨论显示,中国在探索这些概念上可能更为超前」,进一步把视野和格局拉升到了中美AI竞赛的高度。
这到底是怎么回事?在Scaling Law的发现和研究中,百度和OpenAI实际又各自扮演了什么角色?
谁贡献了最早的Scaling Law研究?
在过去几年中,业界的普遍认知是,关于Scaling Law的第一篇有效论文,是OpenAI在2020年发表的《Scaling Laws for Neural Language Models》。
第一个公开声明百度对Scaling Law贡献的,是Anthropic创始人兼CEO Dario Amodei。Anthropic被熟知的产品是Claude,和GPT、Gemini并称美国模型界「三巨头」,Dario Amodei本人的履历则显示,2014年11月- 2015年10月期间,他在百度硅谷人工智能实验室(SVAIL)工作。
按照Dario Amodei的说法,2014年与吴恩达在百度研究语音识别的时候,他们就非正式观察到了Scaling Law,「给这些模型的数据越多、计算越多、训练越多,它们的表现就越好」,不过当时没有精确衡量。
随后,越来越多行业人士开始发声爆料。
Meta研究员、康奈尔大学博士候选人Jack Morris称,「大多数人不知道,关于缩放定律的原始研究来自 2017 年的百度,而不是 2020 年的 OpenAI。他们描述了模型参数和数据集标记对损失的影响。还对图像和音频进行了测试。他们只是用 LSTM 代替了 Transformers,而且没有将他们的发现命名为定律」。
他提到的,是2017年发表的论文《DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY》,文章讨论了机器翻译、语言建模等领域的Scaling现象,第一作者为Joel hestness。公开资料显示,2017年-2019年,Joel hestness在百度工作。
有爆料称,曾在Open AI参与了GPT-3等项目开发的AI专家Gwern Branwen经常提起,「这篇论文的重要性是相当被忽视的」。
然后有人发现,OpenAI的《Scaling Laws for Neural Language Models》中,其实还引用了Joel Hestness2019年的论文《Beyond human-level accuracy: computational challenges in deep learning》。
时间线捋明白后,事情就变得非常清晰了。
在OpenAI之前,百度已经更早贡献了对Scaling Law的原始研究。事实上在Scaling Law最初被观察到的自然语言处理领域,百度也是最早下场的玩家之一,并一直在坚持投入。
百度的深度学习研究院成立于2013年1月,据说是全球企业界第一家用深度学习来命名的研究院。图灵奖得主、Meta首席AI科学家杨立昆在《科学之路》中文版的自序中称,「百度是最早部署商业化深度学习系统的大型公司之一,领先于谷歌和微软」。
AI竞赛,新一轮技术博弈
众所周知,百度在国内一向有「AI人才的黄埔军校」之称,走出了许多知名的AI赛道创业者。Dario Amodei这次的发声,则让外界意识到,即使把视角放到国际AI领域,这一结论也仍然成立。
百度同样走出了不少国际AI大拿,包括美国头部AI企业的一些核心人物。
在百度硅谷AI实验室(SVAIL)做研究员,是Dario Amodei从斯坦福博士毕业后的第一份工作,后来他曾加入谷歌和OpenAI,2021年创立了Anthropic。
在百度任职期间,Dario Amodei招募Jim fan进入SVAIL工作。Jim fan现在是英伟达高级科学家、人工智能一号位。
更被人熟知的是曾在百度担任首席科学家的吴恩达。李彦宏曾在采访中提到,当时吴恩达在谷歌做Google brain,他想买更多的GPU,但谷歌认为成本太高了,「我们说你来,随便买,他就来了」。
不论是技术理念、资源投入、人才挖掘,还是在战略视野上,百度都展现出了在AI领域的高度前瞻性。
一个既定趋势是,AI已经成为新的技术博弈赛场。芯片、算力、模型性能、人才储备等,都将是这一轮AI竞赛的关键赛点。
前谷歌CEO Eric Schmidt将这场竞赛称作「史诗般的较量」,并表示,中国推出了一些与美国最先进模型相似的模型,还学会了用更少的芯片完成工作,「这表明了他们工程师的能力」。
值得注意的是,尽管百度贡献了对Scaling Law的原始研究,但李彦宏很早就提出了预训练模式的局限性。Scaling Law之所以有「暴力美学」之称,就是因为预训练对算力和经济投入的极高要求,在国内的商业环境下,这种模式注定只适合头部大厂。
因此,李彦宏一直在倡导「中国AI的发展特色应该是应用驱动」。百度则希望为AI应用打造一套全新的大模型基础设施。根据2024百度世界大会上的规划,这套基础设施应当包括智能体平台、无代码工具、智能云计算等在内。
或许,在中美AI竞赛中,这样的中国特色思路也会推动产生一些变化。毕竟,如果复盘移动互联网所带来的上一轮产业变迁,也可以找到非常明显的中国特色。
精选推荐
科技考拉是搜狐号科技年度作者,由前AI财经社互金项目主编杨舒芳主理。