在智能体拼多轮交互、推理速度和极长上下文的时代,受限于芯片的DeepSeek,转向从架构层面对推理系统进行深度创新。
DeepSeek的最新论文,又为智能体添了一把火。它联合北大、清华,提出了一个名为“DualPath”的推理系统。
这引发了AI与半导体行业专业人士的关注。因为它尝试解决行业如今普遍面临的痛点:在Agentic AI场景下,系统瓶颈撞上了另一堵内存带宽墙,GPU大部分时间并不是在算,而是在等。
不同的推理场景,对应不同的工作负载,也对应不同的软硬件协同需求。随着智能体进入多轮交互范式,上下文长度随着轮次迅速膨胀,但新增需要计算的token却极少。论文给出的真实世界智能体交互轨迹数据显示,KV Cache(键值缓存,一种存储历史注意力机制计算结果的技术)命中率通常超过95%。换句话说,每一轮推理,模型几乎都在重复加载已经计算过的上下文。
据DeepSeek给出的基于真实的编程任务的智能体交互轨迹,它单次任务平均交互157轮,平均上下文长度约为32.7k tokens,其中,平均追加长度(Append length)仅429tokens。即,KV Cache命中率=1-(429/32700)=98.7%。
这意味着,在目前主流的预填充与解码相互解耦(PD-disaggregated)的架构中,负责预填充(Prefill,传统上的计算密集)的GPU,虽然增量token计算不高,但仍需重建完整注意力输入状态,忙着从外部存储反复加载海量KV Cache,存储NIC带宽被长期挤爆;而负责解码的(Decode,传统上的内存密集)那一侧,资源尚未被榨干。
而且,当下算力增长速度快于网络与存储带宽的不对称演进,使得这种负载失衡被进一步放大;类似的不匹配,曾在标准自注意力的二阶复杂度下放大了单卡的内存墙。
为了刻画Agentic AI的这一负载特性,DeepSeek还提出了缓存计算比(Cache-Compute Ratio)的指标。这个比值越高,系统越偏向带宽受限而非算力受限。
其中,对于DeepSeek-V3.2这样的模型,在这个真实世界任务场景下,缓存算力比约为22GB/PFLOP。即,每进行1 PFLOP 的计算,需要搬运22GB的KV Cache数据。事实上,论文对比的其他大模型中,OpenAI旗下开源模型GPT-OSS-120B的“带宽不足”压力更大,这一指标在47-95左右。
DualPath的核心思路,是把原本集中在单点的存储读取压力,变成整个集群可调度的资源。DualPath允许KV Cache既可以直接读入Prefill引擎,也可以先加载到Decode引擎,再通过高带宽RDMA计算网络转发至Prefill引擎;Prefill 引擎拿到完整的KV Cache后,立刻开始计算。
但是,重塑数据移动,又会带来新的工程问题。包括细粒度数据传输,以与计算无缝重叠,最大程度提升吞吐量;额外的KV-Cache流与集合通信流的隔离,以减少相互影响;以及自适应的动态负载均衡,以迅速决定使用哪条路径。为此,DeepSeek通过推理引擎 (Inference Engines)、流量管理器 (Traffic Manager)、请求调度器 (Request Scheduler)三大组件,共同配合完成DualPath推理系统的“减负”任务。
这不是一次实验,而是生产验证,技术可以很快复制到其他模型或版本上。论文介绍,DualPath基于DeepSeek内部推理框架构建,底层CUDA技术栈与主流开源体系对齐,核心改动约5000行代码,没有新增任何新的硬件。而且,论文也尝试验证了这一推理系统可以线性扩展。DeepSeek并没有公开这些代码。
DeepSeek在一个InfiniBand互连的Hopper架构GPU集群上验证。最终,DualPath将离线推理的端到端吞吐量,最高提升1.87倍,并于在线服务场景中,实现平均1.96倍的吞吐提升。这显示DualPath对带宽瓶颈的缓解,在延迟敏感场景下尤为显著。
大模型的智能体时代,当模型规模(上下文长度)的增长速度超过了硬件(显存容量、网络带宽)的进化速度,单纯堆砌算力已不再高效。系统的性能瓶颈正从计算转向数据(I/O)。
未来的竞争核心,在于如何设计更聪明的系统架构——像Engram那样优化内存使用,像DualPath那样重塑数据流动路径——来巧妙地绕开硬件限制,榨干现有资源的每一分潜力。这标志着LLM的发展重点,正从追求单一的模型规模,转向对推理系统整体架构的深度创新。
DeepSeek开始针对Agentic AI优化基础设施了,DeepSeek-V4还会远吗?