客户端
游戏
无障碍

1

评论

收藏

分享

手机看

微信扫一扫,随时随地看

英伟达发布Dynamo,向DeepSeek等中国开源生态致敬

AI划重点 · 全文约2219字,阅读需7分钟

1.英伟达发布Dynamo,旨在致敬DeepSeek等中国开源生态,促进创新的民主化。

2.黄仁勋表示,推理时代的AI算力需求提升了100倍,既要快速得到结果,又要结果准确。

3.Dynamo具有优化GPU利用率、通信效率和数据处理的功能,如动态调度GPU、智能路由大模型请求等。

4.事实上,DeepSeek的开源技术已被英伟达Dynamo官方文档提及,如KV缓存优化等。

5.除此之外,阿里巴巴的Qwen系列模型和字节跳动的开源项目也在推动着中国开源生态的发展。

以上内容由腾讯混元大模型生成,仅供参考


DeepSeek挑起的模型价格战,冲击了市场对英伟达的信仰。黄仁勋的公开回击是,一边向DeepSeek、月之暗面与字节跳动等中国企业致敬,一边将其开源的优化思路,封装在自己的Dynamo中,促进创新的民主化。
黄仁勋将Dynamo称为AI工厂的操作系统。AI工厂的叙事,这两年已经被黄仁勋说了无数遍,它是生产token的地方;DeepSeek出现后,黄仁勋要回答的是,自己如何比其他AI工厂,更有性价比地生产token。
黄仁勋试图证明杰文斯悖论成立,给出了一组简单粗暴的数据:推理模型的“思维链”消耗的token,是之前对话的10倍;但是人们不会愿意等这10倍的处理时间。所以,推理时代的AI算力需求提升了100倍。人们既要快速得到结果,又要结果准确。
他在台上反复说明,“既要又要”的最佳性价比,就藏在单位时间token吞吐能耗(下图,纵轴)和单用户推理速度(横轴)的最优函数中,也就是英伟达最新的Dynamo驱动的NVL72。他用一张五彩斑斓的黑的PPT,以及一段金光闪闪的曲线,标注了它的位置。
图片

(来源:GTC25)

在正式介绍Dynamo前,黄仁勋直接致敬了DeepSeek。他让Llama-3.3-70B与DeepSeek-R1-671B比上一比,看谁能更合乎礼节地回答婚礼餐桌座位安排问题。前者花了439个token,但是错了;后者花了8559个token,正确。
黄仁勋引申说,有人以为R1小,它可不小,有6710亿参数规模呢,以后,这类模型可能达到万亿参数级别。要把如此庞大的模型和工作负载,合理分配到GPU上,中间涉及到流水线并行、张量并行和专家并行,可都不容易。有时候需要优化延迟,有时候需要优化吞吐量,有时候又需要对批处理方式进行优化。这都得靠一个叫做Dynamo的操作系统来协调。
这是对DeepSeek的第二次致敬。虽然黄仁勋在演讲中没有直接提到这一点,但是我们要说,任何关注DeepSeek开源周的人,都会非常熟悉Dynamo的技术。
目前业内还没有对Dynamo实际性能的完整测评。据Github上的产品文档介绍,它的架构与特性,包括:
1,将预填充和解码推理分开处理,以最大化GPU吞吐量,同时平衡吞吐量和延迟。
2,动态调度GPU,根据需求变化优化性能。
3,智能路由大模型请求,避免重复计算KV缓存。
4,加快数据传输,通过NIXL缩短推理等待时间。
5,将KV缓存分担出去,利用多层内存提升系统吞吐量。
半导体及AI研究机构Semianalysis分析称:智能路由,实现了预填充阶段与解码阶段的负载平衡;动态调度GPU,实现了预填充和解码阶段的MoE模型不同专家间的负载平衡;要从预填充节点传输到解码节点,需要低延迟高带宽通信传输库,NCCL与NIXL就是负责这个的;KV缓存卸载管理,可以释放预填充节点的容量来处理更多传入数据量,或者可以减少所需的预填充部署规模。这些听起来是不是有些耳熟能详。
再来回顾一下,DeepSeek年初开源周都介绍了什么:
1,FlashMLA,针对可变长度序列和分页KV缓存进行优化的GPU解码内核。
2,DeepEP,面向MoE模型,优化了通信速度和效率。
3,DeepGEMM,兼顾数据精度的同时,提升矩阵乘法性能,间接支持推理效率。
4,DualPipe,双向数据流设计减少流水线空闲,提升GPU利用率。
5,EPLB,智能流量调度,确保混合专家负载均匀分布,降低通信开销。
6,Profile-data,分析计算与通信重叠状态,帮助优化效率。
7,3FS,高效数据访问和KV缓存管理的并行文件系统。
简言之,两者在优化GPU利用率、通信效率和数据处理的目标一致,思路相近。事实上,在英伟达Dynamo的产品文档上,确实点名提到了DeepSeek对KV缓存问题的贡献。
KV缓存是对之前发生过的问题和响应等中间结果的缓存。以往,大模型推理对KV缓存的管理不够精细,导致了频繁重复计算。这是对资源的浪费。DeepSeek在V3中就提出了解决方案,并在R1中进一步改进,极限压榨算力。在开源周中提到的FlashMLA与3FS,也都涉及KV缓存优化相关内容。
目前,DeepSeek对输入时缓存未命中的API定价(标准时间内,R1模型百万token为$0.55),要比命中时高出3倍左右(标准时间内,R1模型百万token为$0.14)。
在DeepSeek额外的第6天的开源日中,研究人员披露了更多运营数据。市场的注意力都被545%的理论成本利润率吸引去了,选择性地忽略了DeepSeeK公布的KV缓存命中率高达56.3%。
可以说,优化KV缓存等技术创新,是DeepSeek开启大模型商品化的关键。更低的推理成本,既可以转化为AI应用的利润率,也可以通过AI应用厂商的让利,转化为AI应用的用户规模。
Semianalysis感叹道,英伟达推出Dynamo,本质上是DeepSeek技术创新的民主化。当英伟达发布更多Dynamo官方技术文档的时候,人们将更快更多地了解,这些技术创新究竟意味着什么。
不妨再往前推一步。DeepSeek是中国大模型时代开源的领先者,但不是唯一。阿里巴巴的Qwen系列模型已经成为HuggingFace上最受欢迎的。在DeepSeek的推动下,更多中国大模型企业正在加入到开源生态之中。

图片

(来源:dynamo/docs/architecture.md at main · ai-dynamo/dynamo · GitHub

在英伟达Dynamo的官方文档里,还有不少小彩蛋。Dynamo参考了另一家中国大模型初创企业在内存瓶颈方面的思考,以及字节跳动的开源项目。
其中,Mooncake,是月之暗面的底层推理服务平台,技术框架于去年12月开源。AIBrix,原本是字节跳动为企业内部多个业务用例打造的一款可扩展、经济高效的推理优化的云原生解决方案,于今年2月正式开源。
英伟达的芯片正在失去中国市场。中国开源生态与技术创新正在通过英伟达扩散至全球。


免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部