12月4日消息,亚马逊云计算部门AWS在年度re:Invent大会上宣布了多项重大技术突破,包括新一代人工智能训练芯片Trainium3、新型服务器Ultraserver,以及与人工智能初创公司Anthropic合作的Project Rainier计划。
在当天的活动中,AWS发布了其Trainium系列芯片的第三代产品--Trainium3,该芯片预计将在明年上市,速度是现有Trainium2芯片的两倍,同时能效提高了40%。Trainium3是AWS首款采用3纳米半导体制造工艺技术的芯片。去年发布的Trainium2芯片现已全面上市,性能是上一代的四倍,特别针对大型语言模型训练进行了优化。
AWS首席执行官马特·加尔曼(Matt Garman)表示:“目前,在GPU领域,英伟达几乎是唯一的选择。我们相信,客户会欢迎有更多的选择。”更新定制芯片是亚马逊人工智能战略的关键部分,这不仅能够降低其商业客户使用人工智能的成本,还能增强公司对供应链的控制力。这也可能会减少AWS对英伟达的依赖,尽管英伟达是AWS最亲密的合作伙伴之一,AWS在其云平台上为客户提供了租用英伟达GPU的服务。
根据市场调研公司IDC的统计数据,2024年全球人工智能芯片市场的规模估计为1175亿美元,预计到2027年底将增长至1933亿美元。IDC指出,英伟达目前占据了全球人工智能芯片市场约95%的份额。除了亚马逊,还有许多公司也在争夺英伟达的市场份额,包括Groq、Cerebras Systems和SambaNova Systems等人工智能芯片初创公司。亚马逊的云服务竞争对手微软和谷歌也在开发自己的人工智能芯片,以减少对英伟达的依赖。
AWS周二还发布了新型服务器Ultraserver。它是一种全新的EC2(亚马逊弹性计算云)产品,使用超快的NeuronLink互连,把四台采用了16颗Trainium2芯片的服务器连接在一起形成一台巨型服务器,可扩展至83.2千万亿次浮点运算/秒的峰值计算能力,将单个实例的计算、内存和联网能力提高四倍,从而能够训练和部署世界上最大的模型。
此外,人工智能创业公司Anthropic的联合创始人、首席计算官汤姆·布朗(Tom Brown)在活动中宣布了与亚马逊合作的“雷尼尔计划”(Project Rainier)。该计划的核心内容是,Anthropic未来将使用一个拥有数十万颗亚马逊自研芯片的算力集群。其芯片数量将是Anthropic现有算力集群的五倍以上。不过布朗并没有在大会上说明,该算力集群将在何时投入使用。此外,布朗也没有详细说明该集群CPU芯片、高端的人工智能训练芯片、入门人工智能推理芯片的占比情况。
AWS负责计算和网络服务的副总裁戴夫·布朗(Dave Brown)表示,该算力集群将设在美国,预计到2025年建成时,将成为全球最大的人工智能模型算力集群之一。
越大越好
随着人工智能模型和数据集的规模日益扩大,驱动这些模型的芯片和芯片集群也在不断升级。科技巨头们不仅在增加从英伟达购买的芯片数量,或设计自己的芯片;他们还在尝试将尽可能多的芯片集成在一起。AWS表示,该集群的规模是Anthropic当前训练集群的五倍。相比之下,埃隆·马斯克(Elon Musk)的人工智能初创公司xAI最近开发出一台名为Colossus的超级计算机,整合了10万颗英伟达Hopper芯片。
人工智能编码初创公司Poolside的联合创始人、首席技术官艾索·康特(Eiso Kant)表示,与在英伟达的GPU上运行其他人工智能模型相比,该公司大约节省了40%的成本。但一个缺点是,初创公司需要花费更多的工程师时间来使亚马逊相关的芯片软件工作。不过康特也表示,亚马逊直接通过台积电代工制造其芯片,并将其放入自己的数据中心,这使得它成为人工智能初创公司的“安全赌注”。他表示,初创公司的投资布局至关重要,因为即使是6个月的硬件延迟也可能意味着其业务的终结。
苹果的机器学习和人工智能高级总监贝努瓦·杜潘(Benoit Dupin)在周二的演讲中表示,这家智能手机巨头正在测试Trainium2芯片,并预计将节省约50%的成本。
无形的计算层
Annapurna Labs的“静音实验室”中的一台新的Trainium2 Ultraserver;一名工程师正在测试新的Trainium2 Ultraserver的单元。
对于大多数企业而言,选择支持英伟达还是亚马逊并不是迫在眉睫的问题,分析师们指出。这是因为大型企业更关注的是:市场趋势对亚马逊是有利的,因为它并不需要客户深入了解技术细节。亚马逊能够与云数据公司如Databricks合作,将Trainium芯片置于幕后,而大多数企业不会察觉到任何差异,因为计算服务本应正常运行——理想情况下,成本应逐渐降低。
市场调研公司Gartner的分析师奇拉格·德卡特(Chirag Dekate)表示,亚马逊、谷歌和微软正在制造自己的AI芯片,因为他们认识到定制设计可以节省时间和成本,同时提升性能。他们定制硬件以提供特定的并行功能,这可能会超越更通用的GPU的性能。
金融服务和研究公司Redburn Atlantic的分析师亚历克斯·海斯尔(Alex Haissl)指出,AWS在人工智能的某些不太显眼的领域拥有“被低估”的优势,包括网络、加速器和Bedrock平台,后者是企业使用人工智能模型的平台。
然而,亚马逊领导层对于AWS芯片野心的实现程度,保持理性冷静态度——至少目前是这样。“我认为在很长一段时间内,大多数工作负载可能仍将依赖英伟达,因为它们占据了当前99%的工作负载,所以这种局面可能不会改变,”AWS首席执行官加尔曼表示。“但是,我们希望Trainium能够在市场中占据一席之地,成为许多工作负载的优质选择——尽管不是所有工作负载。”(腾讯科技特约编译无忌)