Tenstorrent 周二宣布其 Galaxy Blackhole AI 计算平台正式上线。
这家初创公司的每个 6U 系统都装满了 32 个我们去年秋天评测过的 Blackhole 加速器。这些芯片通过 100 Tbps 的总带宽,以密集的以太网网状结构互连。
Tenstorrent 表示,每台 Galaxy 系统都配备了 1 TB 的 GDDR6 内存、16 TB/s 的内存带宽和 23 petaFLOPS 的密集 FP8 性能,而这套系统售价仅为 110,000 美元。
换个角度来看,Nvidia 的八路 DGX 显卡虽然速度更快、容量更大,但价格却是它的三到五倍。
然而,Tenstorrent 的网状网络并不局限于单个节点。与 Google 的 TPU 或 Amazon 的 Trainium2 集群类似,它可以通过添加更多系统并调整张量并行和流水线并行的比例来扩展,从而支持更大的模型、更高的吞吐量或更具交互性的用户体验。
Tenstorrent 的基础 Galaxy Supercluster 售价 44 万美元,配备四个 Blackhole 系统,但其架构最多可支持 32 个节点和一千多个芯片。
Tenstorrent 的高级研究员 Jasmina Vasiljevic 告诉我们,自我们首次接触这套硬件以来,软件栈已经有了显著的改进。当时,模型支持非常有限,而且即使支持,也尚未针对硬件进行优化。这种不匹配导致我们在测试中普遍存在性能扩展性差的问题。
据称情况已有所改变,并且不仅投入了大量精力将新模型移植到该硬件上,而且还提高了性能,尽管就在几个月前,该芯片的性能实际上还降低了。
至少对于 DeepSeek V3 而言,Tenstorrent 声称其四节点 Blackhole Galaxy 超集群可以在不到四秒的时间内处理 100,000 个tokens提示(相当于 166 页文本)。
与此同时,据称该系统每秒每个用户最多可生成 300 个tokens,并且他们预计在不久的将来通过软件改进将这一数字提高到 350。
需要注意的是,Tenstorrent并未明确说明这些测试中使用的批处理大小,而批处理大小是评估AI系统在生产环境中扩展能力的重要指标。对于单个用户而言,每秒处理350个tokens远不如将性能扩展到每秒32个或64个tokens时那样令人印象深刻。
Tenstorrent 表示,根据吞吐量和交互需求,该平台能够有效地从 8 个批处理扩展到 64 个批处理。
除了大型语言模型外,Tenstorrent 还将 Galaxy Blackhole 定位为理想的视频生成平台。这家初创公司表示,在一个四节点超级集群上,它可以比实时速度更快地生成 720p 视频。
Vasiljevic 告诉我们,像 Moonshot AI 的 Kimi K2 这样的其他前沿模型正在开发中,她的团队已经开发了一个基于 Python 的编程接口,用于编写优化的内核,以便不断将新模型引入该平台。
“Hugging Face 90% 的模型都只在 Tenstorrent 上运行,”该公司在一份声明中写道。这是一个很高的评价,我们期待对其进行验证。
如果您想先试用再购买,Tenstorrent 的硬件已被多家大型数据中心、托管服务和新云服务提供商采用,包括 Cirrascale、Equinix 和日本的 ai&。我们预计这家芯片初创公司将在 5 月 1 日的 TT-Deploy 活动上分享更多信息。
AI加速器的性能越来越取决于持续吞吐量
深入芯片层面,Tenstorrent 的 Blackhole 架构旨在提升各种 AI 工作负载的推理性能,而非专注于单一模型类型。单个 Tenstorrent Galaxy 系统集成了 32 个 Blackhole ASIC(基于 RISC-V微架构),该公司表示,该系统可提供高达 23 PFLOPS 的 Block FP8 AI 计算能力,使其稳居新兴的密集推理基础设施之列,并针对生产级 AI 环境进行了优化。
单凭计算能力本身并不能使系统在当今市场上脱颖而出,因为各厂商的加速器性能都在快速提升。更关键的问题是,这种性能能否在实际工作负载条件下保持稳定,尤其是在运行具有高用户并发需求的大型模型时。
Tenstorrent 的公告体现了这种战略重点的转变。该公司不再仅仅关注峰值浮点运算能力 (FLOPS),而是强调在诸如大型上下文语言模型和实时媒体生成等工作负载中保持稳定的推理吞吐量。从部署角度来看,持续的吞吐量和可预测的延迟才是最终决定系统利用率和服务可靠性的关键指标。
Blackhole平台的一项技术创新之处在于其对内存带宽和本地数据访问效率的重视。每个Galaxy系统集成了6.2GB的片上SRAM,可提供约2.9PB/s的带宽,并搭配1TB的外部GDDR6内存,总带宽约为16TB/s。
这种内存层次结构旨在最大限度地减少数据移动延迟,而数据移动延迟已成为大型模型推理的主要瓶颈之一。随着模型规模的增大和上下文窗口的扩展,将数据保持在靠近计算引擎的位置,对性能的影响可能比算术吞吐量的增量提升更大。
这种设计理念反映了更广泛的行业趋势。现代人工智能加速器的性能越来越取决于内存子系统的性能,而不仅仅是计算密度。在许多生产环境中,内存带宽决定了系统向计算单元提供数据的效率,直接影响吞吐量、利用率和能效。Tenstorrent 的架构显然是为了应对这种动态变化而优化的。
Tenstorrent的高速网络旨在实现更好的跨集群扩展性
从运行角度来看,在现代人工智能部署中,网络带宽的重要性正变得与计算性能不相上下。大型模型越来越多地运行在分布式集群而非单一系统上,因此互连效率成为决定可扩展性和持续性能的关键因素。低延迟、高带宽的网络可以减少同步开销,并有助于在集群扩展时保持可预测的性能。
同样重要的是该平台的网络架构。单个 Galaxy Blackhole 系统最多支持 56 个 800 千兆以太网端口,从而实现多系统部署中节点间的高带宽通信。这种横向扩展的网络模型是 Tenstorrent “网络化 AI” 架构的核心。该公司并没有主要依赖专有的加速器架构来实现系统扩展,而是强调使用以太网将加速器连接成分布式集群。
相比之下,如今许多高性能人工智能平台都采用了专用互连技术,例如英伟达的NVLink,以在紧密耦合的系统内实现极高的带宽和极低的延迟。这种方法已被证明适用于大规模训练和推理工作负载,在这些工作负载中,加速器需要频繁且高效地通信。
Tenstorrent 采取了不同的策略,其 Galaxy 平台强调基于高速以太网的网络连接,用于连接不同系统间的加速器,这体现了一种优先考虑使用标准基础设施进行灵活横向扩展部署的设计理念。简而言之,Tenstorrent 的互连策略并非着眼于极致速度,而是在人工智能集群不断增长的过程中,权衡专有的、高度集成的性能与可扩展、可互操作的基础设施之间的架构差异。
Tenstorrent Galaxy Blackhole AI 视频生成性能声明
在该公司宣称的众多性能中,实时AI视频生成功能最受关注。该工作负载展现了平台在对延迟高度敏感的环境下提供快速响应推理的能力,突显了加速器吞吐量、内存带宽和网络可扩展性的综合影响。从技术角度来看,该示例说明了系统级架构如何影响用户体验。实时响应能力不仅取决于计算速度,还取决于内存和加速器之间高效的数据流,以及分布式系统间的快速通信。
Tenstorrent 的视频生成结果表明,其平台性能大幅提升,与运行 Wan 2.2 和 Grok Imagine Video 等模型的基于 Nvidia GPU 的配置相比,生成速度明显更快,同时也展现了其分布式架构的响应速度和效率。
Tenstorrent的竞争定位和最终结果
Tenstorrent 的 Galaxy 发布正值 AI 加速器市场快速发展之际,性能领先地位的衡量标准已不再局限于芯片层面,而是越来越侧重于系统层面。英伟达依然是高性能 AI 基础设施领域的领军企业,而 AMD 和越来越多的新兴厂商则持续拓展其在企业级和超大规模环境中的市场份额。
在竞争激烈的市场环境中,差异化取决于加速器、内存和网络组件的协同工作效率。能够在规模化生产环境中提供可预测性能,同时有效控制功耗和基础设施成本的平台,最有可能在未来的生产部署中获得青睐。Tenstorrent 的 Blackhole 加速器和 Galaxy 平台显然正是基于这一目标而设计的。
Tenstorrent 的最新公告也凸显了人工智能系统评估方式的重大转变。加速器性能仍然至关重要,但它与内存带宽、网络吞吐量和系统可扩展性之间的联系日益紧密。这些因素正迅速成为衡量生产级人工智能基础设施的关键指标。
在下一阶段的人工智能部署中,能够取得成功的公司可能并非仅仅拥有速度最快的芯片,而是那些能够在计算、内存和网络基础设施方面实现均衡性能,并能从单台服务器高效扩展到分布式集群的公司。Tenstorrent 正将 Blackhole 及其Galaxy 平台定位于这种新兴的人工智能基础设施模式之中。Tenstorrent 的方案似乎与当前的市场需求高度契合,但最终,公司的成功将取决于严格的执行力、大规模性能验证、构建强大的软件生态系统以及推动客户采用。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。