编辑|易瑾
在刚刚过去的NeurIPS 2024中,前OpenAI首席科学家Ilya“一话激起千层浪”:Pre-training as we know it will end.what comes next is superintelligence: agentic, reasons, understands and is self aware.(我们所熟知的预训练即将终结,接下来将是超级智能:代理、推理、理解和自我意识。)
此言论一出,谷歌的Logan Kilpatrick发推文称:预训练只有在你失去想象力时才算结束。Ilya之所以发表这一观点,是他认为,数据是AI的化石燃料,随着全球数据的限制,未来人工智能将面临数据瓶颈,使用现有数据进行有效训练的增长趋势会放缓,预训练时代也会逐步结束。
但这一理由很快也遭到了业内人士的反对,前Meta具身智能团队的高级总监Dhruv Batra称,“我们并不是缺少数据,我们只是用完了人类书写的文本而已,但是我们拥有的视频数量,远超我们的处理能力,只是尚未解决视觉领域的预训练问题罢了。”
早在今年10月,有传言称,大模型六小虎(智谱、MiniMax、百川智能、零一万物、阶跃星辰、月之暗面)中已有两家企业停止预训练。彼时多家企业都辟谣不会放弃预训练,但众所周知的是这是一个“烧钱”事,据李开复透露一次预训练成本约三四百万美元。
对于这一趋势,容联云副总裁兼诸葛智能创始人孔淼坦言,从性价比来说很多企业不适合去训大模型,有些问题最终通过一些小模型就能解决了。“追求大模型的AGI也不能说是错的,只是在今天这个节点上要付出的成本是巨大的。”
因此,不想放弃预训练,又迫于商业化压力的大模型企业,大多转向更容易见到钱的To B领域,创业者也鲜有再入局大模型的,更多布局AI应用。据非凡产研统计,在全球约1500家活跃AI企业中,中国出海企业已达103家,绝大多数AI产品创业公司集中在应用层,占比高达76%。
数据荒导致预训练终结?
在NeurIPS 2024上Ilya先是阐述了预训练时代来临前的背景,并表示预训练是推动所有进步的动力,包括大型神经网络和大规模数据集。但是对于未来,Ilya预测虽然计算能力在不断增长,硬件和算法的进步使得神经网络的训练效率得到了提升,但数据的增长却已接近瓶颈。
他认为,数据是AI的化石燃料,随着全球数据的限制,未来人工智能将面临数据瓶颈。虽然当前可以使用现有数据进行有效训练,但Ilya认为这一增长趋势终将放缓,预训练的时代也会逐步结束。
清华大学新闻学院、人工智能学院教授沈阳在接受媒体采访时表示,大模型的预训练是指在构建大型人工智能模型(如GPT系列)时,首先在海量未标注的数据上进行初步训练的过程。通过自监督学习方法,模型学习语言的基本结构、语法规则和广泛的知识,形成通用的语言表示。
这一阶段使模型能够理解和生成自然语言,为后续的具体任务(如文本分类、问答系统等)提供坚实的基础。预训练不仅提升了模型在各种任务中的表现,还减少了对大量标注数据的需求,加速了应用开发的进程。
对于“AI大模型预训练数据是否将耗尽”这个话题,沈阳表示要厘清两个问题:一是业内讨论的预训练数据是否将“耗尽”主要针对的是可用于大模型训练的文本数据,但大模型对空间数据、视频数据,以及传感器感应到的自然界中的海量数据的学习与利用才刚刚开始。也就是说由AI大模型学习和使用文本数据迈向这些上述提到的巨量数据,还将会面临一个巨大量级的扩张。
二是未来一方面要持续强化大模型的预训练,但更重要的是研究推理,研究智能体,研究人机共生。“也就是在研究怎样让AI通过海量数据学习,能力变强的同时,更要研究怎样让人类也变得更强。不管AI能力有多强,人类最终要能够驾驭AI。”
今年7月,数据来源倡议组织发布的研究发现,各大网站正在采取限制措施,阻止AI公司使用不属于它们的数据。新闻出版物和其他热门网站也越来越多地禁止AI公司自由地获取它们的数据。
为了解决这一问题,OpenAI和谷歌等公司纷纷支付数千万美元,获取Reddit和新闻媒体的数据访问权限。与此同时,合成数据也应运而生。根据媒体报道,Anthropic公司使用部分合成数据训练了其旗舰模型Claude 3.5 Sonnet,Meta公司也通过AI生成的数据对其Llama 3.1模型进行了微调。
但截至目前,合成数据的有效能不能被视为一种有效的解决方案,仍值得深究。
Scaling Law是否有效?
今年10月,有传言称,大模型六小虎(智谱、MiniMax、百川智能、零一万物、阶跃星辰、月之暗面)中已有两家企业停止预训练。
一位大模型技术人士向媒体表示,预训练既要烧钱又要烧数据,对中小公司来说,当投入与回报不成正比时,及时止损是正确的选择。但同时,预训练模型也是大模型公司的底层核心技术,头部公司和大厂不能停止预训练,停了就意味着走下牌桌。
接着11月9日,外媒报道称OpenAI的下一个模型仅比GPT-4有适度改进,比之前的版本进步较小。为此,OpenAI开始改变提升模型性能的策略。
另外作为Scaling Laws提出者之一的Ilya当时在接受采访时候表示,预训练阶段的扩展效果已经停滞不前。“扩展正确的东西比以往任何时候都更重要。”这些报道引发了科技界的担忧:让人工智能大模型变得更智能的Scaling Laws的收益正在递减。
NeurIPS 2024上Ilya预训练即将终结,Scaling Law是否有效的问题再次引起热议。近日亚马逊云科技AI科学总监Sherry Marcus在接受媒体专访时表示,Scaling Law依然有效。
“这是一个数据问题。神经网络越大,准确度就越高。这实际上和我们所训练的数据集有关,语义数据的积累能让Scaling Law更有效。数据来源不断丰富,也使得训练和微调大语言模型变得更加高效。尽管生成的数据可以用于训练,但如果用来训练一个大模型,其效率会降低。”Sherry Marcus认为。
亚马逊云科技大中华区产品部总经理陈晓建,表达了这样的观点,他说:到今天为止,基础大模型还远远没有到非常成熟、已经不需要新的提供商入局的阶段,它其实还是在一个非常早期的阶段。
11月16日,在Kimi全量开放一周年之际,月之暗面发布了新一代数学推理模型k0-math,数学能力对标OpenAI o1系列。 在与媒体交流时,杨植麟除了明确表示向强化学习进击之外,杨植麟对预训练模型作出了自己的评价和判断。他对Scaling Law仍然乐观,认为预训练模型还有半代到一代的提升空间,这个空间大概率会由头部大模型在明年释放出来。
Scaling Law通常用来描述模型性能如何随着规模(如模型参数大小、数据量、计算量)的增加而变化的一系列经验性规律。
过去两年,沿着这条技术路线,大模型快速迭代,但是随着成本的进一步提升,具体什么时候能AGI能实现也没有明确答案,这个问题始终在业内被反复提及。
综合自环球时报、量子位等