1.英伟达在GTC 2025上发布了Blackwell Ultra(B300/GB300)系列芯片,性能提升1.5倍,AI性能提升1.5。
2.2026年将推出新架构Rubin,性能将达到当前Hopper架构的900倍。
3.此外,英伟达还发布了Dynamo架构,优化推理效率,以应对DeepSeek等推理模型的需求。
4.尽管如此,市场对于英伟达在推理市场的表现仍存疑虑,需要进一步验证。
以上内容由腾讯混元大模型生成,仅供参考
黄仁勋2025年首场重要亮相终于结束。
GTC 2025,比预期中迎来更多从世界各地奔赴而来的AI从业者——不少人从黄仁勋演讲开始前一两小时开始排队,却还没能进入会场。
这大概是英伟达最关键的一次亮相。
2024年12月,英伟达以年涨幅176%的水平领跑美股科技七巨头,市值从2023年底的1.2万亿美元增至2024年底的3.28万亿美元。
一个月后的1月27日,英伟达在DeepSeek冲击波中一日暴跌近17%,市值蒸发近6000亿美元,创下美股史上最大单日市值损失。
这一次的GTC,是英伟达股价剧烈跌宕后的首次隆重亮相。总结来看,老黄重点输出了以下几点信息:
1. 高端AI芯片,和三代芯片架构:
发布Blackwell Ultra(也就是B300/GB300)系列,包括Blackwell Ultra芯片及相关机柜等产品。相比上一代B200/GB200系列,有两倍的带宽和 1.5 倍快的内存,AI性能提升1.5。某些情况下,Blackwell 的性能要比 Hopper 的高出40 倍。
2026年将推出新架构Rubin实现性能飞跃。黄仁勋表示,Rubin 的性能将达到当前 Hopper 架构的900倍。对比之下,Blackwell 对 Hopper只有68倍的性能提升。
2027年将推出Rubin Ultra,2028年推出Feynman架构,持续提升AI性能。
2. AI推理市场是利好,还不是潜在危机:
DeepSeek-R1这类推理模型会带来高涨的算力需求。
只要产生Token就是利好英伟达。
发布Dynamo架构,优化推理效率。
3. 最前沿的科技世界,比如具身、量子等,英伟达都有布局。
整体来说,“销冠”老黄这次从Scaling Law的逻辑讲到产品业绩,再讲到未来布局,算是呈现了英伟达这个AI头号玩家的“世界观”。
但在卖力宣讲后,市场Buy in了吗?
至少目前还不能得出肯定的结论。
(发布会当天的英伟达股价)
针对DeepSeek和推理市场:没有回应一切的回应
一反常态,这次GTC黄仁勋没有一上来就算力新品炸场,而是花了近1小时的时间讲述Scaling Law。
“全世界都错了,Scaling Law没有撞墙。”这是他对世界的反怼。
他的逻辑是:AI进入推理时代后,Scaling Law从一个变成了三个,也就是Pre-Train、Post-Train和 Test- Time(Long Thinking)。
由“思维链”主导的推理模型,使单查询产生的Token数量增加10倍,而为了提升产品体验,系统还需要以10倍的速度计算这些Token。所以,"如今的算力需求比我们去年预估的高出了100倍。"黄仁勋说。
也就是说,不管是预训练、后训练还是推理,只要有Token就有英伟达的生意。
他的Demo直指DeepSeek。
在一个对比普通LLM和推理模型差异的Demo中,黄仁勋选择LIama 3.3 70B和DeepSeek-R1,为婚宴安排合适的座位。
这在实施中是一个相对复杂的需求,包括父母与姻亲不能相邻、摄影效果最佳化、新娘的特殊要求以及加入牧师等要求。
Llama 3.3 70B采用"一次性"方式,快速生成439个tokens的回答,虽然响应迅速但结果错误,等于浪费了439个tokens。而DeepSeek-R1的深度思考生成8559个tokens。
黄仁勋通过这个案例说明,推理模型的tokens生成量相比过去的大模型增加了20倍,计算资源需求更是高出150倍。而这其中的计算量、计算速度,还有快速的网络传输,都需要英伟达来实现。
这个推导看似没问题,但在每年最重要的发布会中花费40分钟宣传,还是有些少见。一些现场观众反馈,这种理论探讨让人感到"无聊"。
(现场展示的case)
这段“无聊”逻辑,是英伟达在DeepSeek、ASIC冲击下不得不做的回应。
首先是ASIC,它在执行特定任务时效率更高,成本更低,不像通用GPU功能更泛化,所以更适合有特定任务的推理场景。这也是前段时间博通受到追捧的原因。
针对这一质疑,英伟达今天在给出推理市场依旧利好算力的长篇逻辑之外,还发布了Dynamo,被视作英伟达在推理领域构建的新CUDA。
从功能看,Dynamo是一个专为推理、训练和跨整个数据中心加速而构建的开源软件,可以看作一个"超级调度平台"。
黄仁勋说,如果你有1000块GPU在跑AI推理,过去可能只有一半的算力真正被用上,剩下的要么在等待,要么就是因为任务分配不均,效率打折。但用了Dynamo之后,每一块GPU都会被充分利用,提高推理效率。
具体数据是,在Hopper架构上,Dynamo可让Llama模型性能翻倍。而针对推理模型,比如由GB200 NVL72机架组成的大型集群上运行DeepSeek-R1模型,NVIDIA Dynamo能将每个GPU生成的Token数量提升30倍以上,同时处理相同推理任务的速度也快30倍。
Dynamo的确是整个推理逻辑里最值得关注的部分。
原因在于,股价狂跌后的英伟达如果仅向外界说明AI推理会使算力高涨,并无法体现英伟达行业第一的独特性。
黄仁勋只有证明,英伟达能在推理领域带来独一无二的算力价值——就如训练领域一样,才能阶段性冲淡市场质疑。
而在Dynamo加持下,Hopper和Blackwell系列芯片处理Token的高性价比,是英伟达针对这个问题体现出的诚意。
但另一个关键问题在于,DeepSeek不久前展示出高达545%理论利润率的结果,让市场疑惑是否采用非B系列的"低端"芯片,通过Infra层面的优化也能达到Dynamo+Blackwell的推理效果?
这个问题的答案,可能正中英伟达的眉心。
(英伟达Dynamo的产品文档,提到了DeepSeek对KV缓存问题的贡献。还提到了Mooncake、AIBrix「来自字节」项目)
最卖力的兜售:最强算力预期
作为世界第一AI算力公司,让客户购买越来越高端的芯片是最重要的目标。
为了提振信心,这一次黄仁勋直接给出Blackwell的已有业绩,以及Blackwell Ultra(B300/GB300)、Rubin、Feyman的信息。
事实上,自从英伟达去年GTC发布Blackwell架构之后,Blackwell GPU(GB200 和 B200)的出货问题一直备受瞩目。
此前天风国际证券分析师郭明錤在1月曾作出过预测,由于英伟达GB200 NVL72 组装量产时间不断延期,将导致出货量低于预期,预计2025年出货量为2.5~3.5万台。一个月后,摩根士丹利又发布了研报,将2025年英伟达GB200 NVL72出货量从此前的3万—3.5万大幅下调至2万—2.5万台,最差的情况出货量可能低于2万。
不过,出货的问题似乎已经解决。
3月14日,英伟达服务器的主要代工方鸿海精密的董事长刘扬伟对外说,英伟达GB200良率已经达到了批量生产标准。
(来源:财联社)
来源:SemiAnalysis