OpenAI的下一代大模型被曝出提升效果有限~
其下一代模型“猎户座”(Orion),对比于GPT-4来说提升效果不明显,同时还存在GPT-4上的一些明显错误。这可能就说明,为什么迟迟不出来GPT-5了,因为提升幅度有限,所以把GPT-5改名成立了Orion
一直以来,很多人都认为GPT这种模式其实最后是通向不了AGI的。比如像之前李飞飞和Etchemendy(斯坦福哲学教授,曾任斯坦福大学教务长)在《时代(Time)》上刊载新文章《No, Today’s AI Isn’t Sentient. Here’s How We Know》,明确指出当前技术路线无法制造有感知能力的AI。
而这一次,大模型Orion被曝出效果不佳,大模型悲观主义学派Gary Marcus直接就宣布:
游戏结束,是我赢了。GPT大模型正在进入一个收益递减期。
这可能不仅仅是OpenAI一家的问题,任何正在训练大模型的公司,最后都会面临着这个问题,也就是继续训练会不会效果可能变差,甚至是成本付出了,却得不到效果强大的模型。
那为什么OpenAI在训练下一代模型的时候会遇到瓶颈呢?这里总结了网上几个主流的观点
目前大模型存在的问题
1
数据集的问题
目前最主流的说法认为,大模型的scaling raw正在慢慢失效,也就是目前的大模型尽管有着大量的数据集进行训练,但是其能力却没有大规模的提升,体现出了Scaling raw在慢慢失效。
为什么会导致性能提升有效呢?主要是现在大模型所需要的大规模数据集已经耗尽了,高质量的数据集其实没有多少。
OpenAI就为此创建了一个“基础团队”,主要研究怎么合成高质量的数据,提供给大模型进行学习。而如果能够源源不断的提供给大模型一个高质量的数据集,那么确实有可能会进一步提升
要生成高质量的数据,目前常用的方法是通过一个在相关内容上进行过预训练的大语言模型生成合成数据。具体来说,生成过程通常是基于少量的真实数据,编写一组特定的 prompt,再经由生成模型生成具有针对性和高质量的合成数据。
但是这种生成数据的方法会有两个明显的问题。
一个是信息增益有限:合成数据的有效性在于其为模型提供了新的信息。如果合成数据与原始数据过于相似,信息增益有限,模型的泛化能力提升也会受限。
另一个是数据质量控制困难:合成数据的质量直接影响模型的性能。生成高质量的合成数据需要精确的建模和丰富的先验知识,确保合成数据在多样性和真实性上与真实数据相匹配。
所以目前怎么大规模合成高质量的数据,使得scaling raw持续发挥作用,是OpenAI需要急切解决的问题。
2
训练成本的压力
Orion的训练成本过高,是制约其性能提升的一个重要因素。训练一个如此庞大的模型,需要消耗大量的计算资源和能源。
从网上的公开资料显示,OpenAI训练GPT-4的成本估计达到了7840万美元。
从上面图可以看出,2017年的时候训练一个transformer仅仅需要930美元,但是到训练GPT4训练模型则翻到了70000多倍的成本。也就是模型结构越复杂,其训练成本也会指数级增长。特别是对于两个巨无霸GPT-4和GEmini Ultra来说,这两个模型的费用简直一骑绝尘。
除了单独训练模型需要大量的成本以外,其实耗费成本最多的是人力资源和每天的推理资源。
从人力成本方面看,其OpenAI每年的人事费用高达15亿美元。现在大模型人才个个都是年薪百万以上,这就足以看出,大模型人才目前还是比较吃香,所以导致公司的人力成本支出也比较高
在推理和运营方面更是一个天文数字,ChatGPT的日常运行几乎处于满负荷状态,ChatGPT配备了多个Nvidia A100芯片,成本约为350,000台服务器。尽管微软给了很大的折扣,OpenAI的云计算成本每天高达70万美元。这里面一年就需要支出3亿美元。
所以说,目前OpenAI训练一个大模型,特别是训练下一代大模型Orion,其花费应该是天价了。特别是在付出这么大的成本空间下,没有多少可以给你试错的机会,这就导致OpenAI训练的时候需要更加追求效率,这可能就会导致大模型的一些性能牺牲掉。
下一步AGI的方向在哪里?
大模型这条路到底能不能通向AGI,目前谁也说不清楚。但是下一步其实还有很多可以发展的空间。
比如之前OpenAI推出的o1大模型,OpenAI就提出的新的Post-Training Scaling Laws原理。尽管在模型在预训练阶段pre-training的scaling laws真正慢慢的失效,但是在后训练阶段中的scaling laws目前还可以继续发力。
OpenAI在尝试提升后训练Post-Training和推理阶段中的算力,发现整体模型的准确率有明显的提升效果。
这里的OpenAI的后训练Post-Training Scaling law 与 预训练 Pre-training Scaling law 不同。它们分别在模型训练和推理过程的不同阶段。随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算), o1 的性能也在不断提升,并且目前Post-Training Scaling Laws还远没有到瓶颈。
所以scaling law并没有真正的失效,大模型还可以从更多发面去挖掘其潜在的可能性。
另一方面Lecun就曾提到过通向AGI的方法,就是需要构建一个“世界模型”。他觉得LLM其实就只是个自回归的文本生成模型,它们对世界的理解非常肤浅,只能捕捉到文本的统计规律,根本没法真正搞懂文本在现实世界里的意思。
因此他自己就提出了一个“世界模型”的概念,解决方案被称为JEPA(联合嵌入预测架构)。
JEPA用一系列编码器提取世界状态的抽象表示,再用不同层次的世界模型预测器预测世界的各种状态,还能在不同时间尺度上做预测。所有复杂的任务都能用“分层”的方法搞定。比如,我想从纽约去北京,先得去机场,然后坐飞北京的飞机,最后需要把整体的目标规划成:纽约到北京的距离。
接着“世界模型”需要把任务分解到毫秒级,通过毫秒级的控制找到预测成本最小的行动序列。
当然,以上两种方法究竟哪一个能够成功,我们只能静待时间的考验。我还是相信,在科技持续飞速发展的助推下,AGI必定能够到来~
以上就是本期的所有内容了,我是leo,我们下期再见~、