NVIDIA发布可扩展式“AI工厂”搭建蓝图

NVIDIA所谓的AI工厂,其真正含义是旨在实现“制造智能性”的高性能安全数据中心,而且NVIDIA认识,到构建这种工厂的任务对任何企业来说都是十分艰巨的。

图片

挑战在于组织必须在未知领域中进行探索,因为以前没有人建造过AI工厂。随着大型语言模型功能和软件框架的快速发展,构建此类数据中心的最佳实践和标准化方法仍处于起步阶段,让人很难满怀信心地投资数据中心基础设施。

NVIDIA希望能够改变这种状况,为此,NVIDIA推出了一系列Enterprise Reference Architectures,这些蓝图将帮助组织确保其AI工厂能够不断发展和扩大,以支持未来几年的创新。

据说,这些蓝图提供了有关AI工厂所需全栈硬件和软件的详细建议,以及有关最佳服务器、集群和网络配置等方面的指导。

据NVIDIA称,企业通过使用NVIDIA Enterprise RA就可以构建和部署“具有成本效益的加速基础设施”,这种基础设施可以与各种第三方硬件和软件组件实现互操作,因此将来是可以轻松更新的。

当然,NVIDIA认为大多数组织的AI工厂都需要集成自己的大量硬件,因此参考架构为NVIDIA认证的服务器提供了建议,这些服务器配置了为大多数AI应用提供动力的NVIDIA GPU。

这个参考架构还为使用NVIDIA Spectrum-X AI Ethernet平台和NVIDIA BlueField-3数据处理单元进行AI优化网络提供了指导方针,以确保峰值性能和未来扩展灵的活性。

NVIDIA的AI Enterprise平台是参考架构的另一个组成部分,其中包括了用于构建和部署AI应用的NVIDIA NeMo和NVIDIA NIM等微服务。NVIDIA Base Command Manager Essentials也是如此,它提供了用于基础设施配置、工作负载管理和资源监控的工具。

NVIDIA表示,将通过戴尔、HPE、超微和联想等服务器制造合作伙伴将这个蓝图提供给企业,意味着企业在他们想要用来为其AI工厂提供动力的底层服务器平台方面,仍然有很大的灵活性。

使用NVIDIA参考架构的最大好处也许就是能够更快地启动和运行,因为客户只需要遵循其结构化的方法,而不必自己摸索。NVIDIA还表示,他们有信心利用这些蓝图确保企业能够从其服务器硬件中实现最大性能。

另一个关键优势是和规模有关的。这个面向未来的参考架构经过精心设计,可以随着更多硬件和软件创新的出现轻松进行升级。

NVIDIA公司副总裁、企业平台总经理Bob Petter表示:“Enterprise RA提供了一种蒋健的方法,来构建灵活且经济高效的加速基础设施,从而缩短了部署AI基础设施解决方案的时间以及降低了成本。”

Constellation Research分析师Holger Mueller表示,尽管遵循这些蓝图不可避免地需要承诺使用NVIDIA的硬件和软件,但企业组织很可能会选择这么做的。他认为,大多数企业根本没有必要的技能和经验来自己打造用于AI项目的基础设施,更别说AI技术还在快速发展中。

“NVIDIA在几乎所有生成式AI项目中都发挥着关键作用,这些蓝图将使组织能够更轻松地构建和升级他们的内部AI架构,只要企业乐于使用NVIDIA的芯片——许多企业确实如此,那么这就是一个双赢的局面。企业可以更快速地启动他们的AI项目,而NVIDIA也可以获得另一个长期客户。”