训练18个月GPT-5跳票!AI大模型的泡沫要破裂了?

12月上旬到中旬,OpenAI召开了为期12天的马拉松式发布会,每天都会公布一些新产品或新技术,带来了包括增强版o1大模型、文生视频大模型Sora Turbo、精简版推理模型o3-mini,以及高级语音模式增强等成果。

然而连续12天的发布会,却未能收获太高热度,即使是多款全面升级的大模型和文生视频大模型Sora Turbo,讨论度也十分有限,收到的吐槽可能比赞扬更多。

图片

(图源:OpenAI)

其中的原因很简单,这些大模型功能确实更强了,可以帮助用户完成更多任务,但没有太多本质上的提升。广大用户期盼已久的GPT-5没有来,全新产品Sora Turbo也仅能生成最长20秒钟的1080P视频,未达到其在2024年初宣传的2分钟时长。

2023年3月GPT-4发布后,OpenAI就启动了代号为“Orion”(猎户座)的GPT-5研发项目。OpenAI主要投资者微软原计划2024年中期看到GPT-5,结果18个月时间过去了,GPT-5却依然难产。

面对迟迟未能发布的GPT-5,《华尔街日报》表示,OpenAI的AI项目费用极高,却不清楚何时能成功,甚至难以确定究竟能否成功。还有人质疑,问题或许不在OpenAI身上,而在于AI行业的发展已进入瓶颈。

耗资甚巨却不见成效,OpenAI遭遇大麻烦

2023年中期,OpenAI启动了针对Orion的首次实战测试项目,代号“Arrakis”。然而测试结果却显示,更大规模的AI大模型训练所需时间极长,会导致整体成本飙升。

OpenAI工作人员认为,Orion进展缓慢的原因在于没有足够多的高质量数据。早之前,OpenAI不断从互联网抓取数据,将新闻报道、社交媒体的帖子、科学论文等数据统统拿去训练大模型,甚至因此遭到加拿大Torstar Corp集团的起诉。

然而现有的互联网数据不够训练出GPT-5,因此OpenAI想到了一个方案——原创数据。OpenAI正在招聘人员,负责编写软件代码或解决数学问题,供Orion学习。显而易见,该方案势必导致Orion训练时间进一步延长,训练所需的成本也会大幅提高。

图片

(图源:AI生成)

2024年初,感受到同行的压力后,OpenAI接连对Orion进行了几次小规模训练,并于5月到11月启动了第二次大规模训练,可数据量太少、数据多样化不足的问题依然存在。

OpenAI CEO山姆·奥特曼(Sam Altman)曾表示,训练GPT-4的费用大约是1亿美元,未来AI模型训练费用将达到10亿美元。而现在,GPT-5为期个月的训练已耗费了5亿美元,且未能取得理想的效果。

困扰OpenAI的不只是数据和成本,外部竞争同样关键。AI行业爆火后,对于人才的需求暴增,身为行业领头羊的OpenAI,自然成了其他企业争相挖墙脚的对象。OpenAI最初的11位联合创始人,已有9人离职,首席技术官Mira Murati、首席研究官Bob McGrew、研究副总裁Barret Zoph等高层也于2024年相继离职。

另一方面,来自对手的竞争迫使OpenAI开拓更多赛道,如打造精简版的GPT-4和文生视频大模型Sora等。知情人士称,这些新的项目导致OpenAI内部新品开发团队和Orion研究人员不得不争抢有限的资源。

对于OpenAI而言,唯一值得庆幸的是,不只是OpenAI遇到了数据、资金问题。曾在谷歌、OpenAI工作过的Ilya Sutskever直言,数据是AI的化石燃料,而这份燃料即将耗尽,但我们只有一个互联网,最大化数据的时代已经过去了。

正因如此,《华尔街日报》才会质疑GPT-5最终能否研发成功。但数据量的局限性,真的锁死AI行业的发展了吗?

赋予AI大模型思维能力,这是OpenAI的大饼?

尽管Orion项目耗费了大量资金,但拥有微软、苹果等互联网巨头支持的OpenAI,暂时不缺资金,所缺的唯有数据和算力。

面对数据量不足的问题,OpenAI研究人员想到了一个捷径——给予AI大模型更长的思考时间,去解决未经训练的困难问题。也就是说,OpenAI要凭借赋予大模型思维能力的方法,规避数据量不足的问题,令其可以像人类一样思考,去解决从未遇到类型的问题。

问题是,AI大模型真的具有思维能力吗?苹果研究员在《理解大语言模型中数学推理局限性》论文中提出了异议,苹果研究人员称,AI大模型只能套用现有模式,不具备真正的推理能力。苹果还举了一个奇异果测试案例,在该案例中,当描述语加了句废话“其中五个比平均较小”,GPT-4o mini便无法准确计算奇异果数量。

图片

在之前的文章中,小雷曾实测了该案例,GPT-4o mini虽计算失败,但豆包、Kimi等多款大模型成功通过测试。另外,现在向AI大模型询问数学问题,得到的回答通常会带有解题思路,也能够说明大模型已不再是单纯套用训练过的模式,而是根据一定的逻辑去解题。

通过这种方式,训练AI大模型所需的数据量自然会大幅减少,未来甚至有可能实现仅输入数学公式就能解决相应问题。当然,目前AI大模型的能力还没有达到这种地步,高质量数据依然不可或缺。

高质量数据真的如Ilya Sutskever所言,被用完了吗?小雷认为,答案是否定的。准确地说,容易采集的数据被用完了。

训练AI大模型的数据主要有三大来源:第一,公开数据,如部分机构或组织公开的开源数据、互联网上的帖子、论文等等,尽管互联网数据也存在版权问题,但审查并不严格,而且方便抓取;第二,自有数据,如阿里巴巴、小米等企业开发AI大模型,完全可以使用平台用户积累的数据;第三,合作数据,AI公司与其他企业交换或购买到的数据。

图片

(图源:AI生成)

被采集完的数据,主要指公开数据和自有数据,合作数据还有极大的挖掘空间。例如在中国互联网文化的发展历程中,网页端的占比没有想象中大,大量数据集中在App开发者手中,与开发者合作互换或购买这部分数据,同样可以用于训练大模型。另外,不少企业也会有一些保密数据,AI公司也可以买来训练大模型。

这些数据并未公开,企业需要付出一定的成本才能获取到,可能会增加AI公司训练大模型的成本。因而不少AI公司也在考虑,使用AI生成的数据或对已有数据进行变换处理,用于训练AI大模型。

不过AI创作的数据用于训练自身,可能会出现故障或生成无意义内容,因而需要另一款AI大模型负责生成数据,以规避该问题,这种方案同样需要大量资金。

AI大模型的发展进入了瓶颈,但远没有到尽头,只是AI企业获取数据的成本飙升,且对于算力的需求更高。解决困境的方法也很简单,那就是尽快实现盈利。

AI大模型成了吞金兽,烧钱模式何时休?

前几年元宇宙、区块链、一滴血预测所有疾病等轰动全球的泡沫接连被戳破,导致不少网友怀疑AI也是泡沫和骗局。就小雷的体验而言,AI已成为提高我们工作效率的好帮手,如本文多张配图便是由AI生成,AI绝非泡沫,但资金问题已然成为困扰AI技术发展的重要因素。

今年初,奥特曼曾表示,需要7万亿资金重塑全球半导体行业格局,为AI大模型的训练提供足够的算力支持。当时几乎所有人都认为奥特曼的想法不切实际,NVIDIA CEO黄仁勋更是表示,目前全球数据中心总价值仅1万亿美元。

现在看来,7万亿美元都不见得能够将AI行业推至巅峰,AI公司仍需为数据付出极高代价。没有大量数据,AI大模型就难以产生质变,若不能质变,其带来的价值不够,又可能导致投资者放弃支持。在AI大模型一只脚踏入瓶颈的今天,尽快扭亏为盈方能激活AI行业。

当前全球付费版AI大模型的订阅价格都相当昂贵,行业领头羊OpenAI推出的ChatGPT更是如此,ChatGPT Plus订阅价格已高达20美元/月,更强的ChatGPT Pro则达到了惊人的200美元/月。

图片

(图源:ChatGPT截图)

然而提高订阅费用就能实现盈利吗?恐怕不行。愿意付费使用的个人用户始终是少数,唯有打造专业应用场景,从企业身上赚钱,方能尽快实现盈利。更何况专业场景训练所需的数据和算力较少,能够一定程度节省成本。C端市场向来钱少事多加众口难调,可以暂时减少相关投入,以降低支出成本。

AI公司实现盈利后,投资者自然更有信心投入资金支持,公司也将有更多资金购买数据和算力芯片,从而训练和提升AI大模型。

25年1月7日,CES(国际消费电子展) 2025 即将盛大开幕,雷科技报道团蓄势待发,即将飞赴美国·拉斯维加斯现场全程报道,敬请关注。

图片