划重点
01英伟达推出推理GPU B300和GB300,显存容量从192GB升级到288GB,热设计功耗分别达到1.4KW和1.2KW。
02B300和GB300的升级旨在提高OpenAI推理大模型的性能,降低推理成本。
03由于推理思维链长度会影响batch size和延迟,B300将有效提升推理性能。
04OpenAI的o1和o3模型在2024年4月发布,预计GPT5、GPT6将比GPT4、GPT5更聪明。
05尽管推理计算资源在短期内受到成本限制,但英伟达推出B300和GB300表明对基础大模型方向的重视。
以上内容由腾讯混元大模型生成,仅供参考
为推理大模型打造的英伟达新一代GPU
在GB200和B200发布6个月后,英伟达就宣布将推出全新的GPU GB300和B300:
显存容量:从192GB升级到288GB
架构微创新,在CPU和GPU之间动态分配功率,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW比B200更高。
这些升级都是为了OpenAI o1/o3一类的推理大模型, 因为推理思维链长度会影响batch size和延迟,而B300将有效提升推理性能:
每个思维链的延迟更低
实现更长的思维链
降低推理成本
处理同一问题时,可以搜索更多样本,最终提高模型能力
o1、o3是OpenAI下一代GPT5遇到困难的备选方案
在2024年4月,OpenAI CEO 在斯坦福演讲中表示:GPT5在人类历史中,这绝对是最令人瞩目的事件之一。我们现在就能预见到, 并且以高度的科学确定性说, GPT5会比GPT4聪明得多, 而GPT6则会比GPT5智慧程度更高, 而且我们还远未触及这个智能极限。
他还提到目前很多创业公司在修补ChatGPT的缺陷,其实这是在赌大模型不会变地更好,但GPT5、GPT6会让这样的工作没有意义。2024年10月OpenAI推出o1时,当时笔者就发文认为OpenAI的GPT5碰到瓶颈了。在12月OpenAI连续12天的大模型应用发布会,如按其CEO的之前的表述:这些工作都没有意义。
使用o3完成100个测试任务的成本高达2,012美元,而测试全部400个公开任务的成本更是高达6,677美元。这种成本对于应用来是没有意义的。虽然,OpenAI计划在2025年1月底推出更经济实惠的o3-mini版本。
一个高中生吃一个馒头就够支持其解几十道数学题,而o3解决同样数量的题目,电费账单可能就3000美元了。2016年,AlphaGo赢了李世石,最初那版AlphaGo每下一盘光电费成本就是3000美元。后续虽然AlphaGo也有优化,但并没有推动AI在相关行业的应用。强化学习提高长链路搜索准确性,需要爆炸性的推理计算资源,即使该方向是未来方向之一,短期因为计算成本限制,也无法推广应用。GB300和B300将推理作为最重要优化方向是被OpenAI带歪了。
智能的本质是学习
从方法轮上笔者更认同,图灵奖、诺贝尔奖得主,深度学习之父Hinton说的:智能的本质是学习,不是推理。机器之心视频号有个视频,是Hinton反驳符合人工智能理论,其中有这么一句。深为认同。
更强的基础大模型依旧是最重要的方向
12月26日, 国内对冲基金幻方公司发布DeepSeek-V3模型,在2048个H800GPU集群上使用需要3.7天, 用比Llama 405b 等的十分之一的计算量就训练出不相上下的模型效果.