云上「算力浪费」，正在掣肘企业应用落地

InfoQ

2024-12-27 14:20发布于北京InfoQ官方账号

文 | 雷雨亭

编辑 | 王一鹏

投入算力，真的能换来利润吗？这是每个想“入局”大模型的企业都会思考的问题。

人工智能行业一直困于成本，无论从模型训练到推理，都充满了“烧钱”的气息。无法避免的高昂算力，成为企业入局大模型的“铁门槛”。

据多方数据统计，训练 GPT-4 这样的前沿模型系统，其成本预估在 7800 万美元；而在推理层面，企业私有化部署大模型，成本仍高达数百万元；基于开源大模型进行微调 +RAG 策略尽管更便宜，但安全性难以保障，更别提在后续使用中还会涉及的持续算力消耗。

而与高昂算力同时存在的，是算力利用率极低的行业现状。

据相关消息，OpenAI 在 GPT-4 的训练中，其算力利用率只有 32% 至 36%，大模型训练的算力有效利用率不足 50%。这是因为在训练周期内，GPU 卡并不能随时实现高资源利用，在一些训练任务比较小的阶段，还会有资源闲置状态。而在模型部署阶段，由于业务波动和需求预测不准确，许多服务器往往处于待机或低负载状态。算力浪费现象极为严重。

困局背后，是云计算基础设施建设存在的滞后性：传统的云基础设施，并不完全适配当今大模型训练及推理的需求。所以过去两年，主流云计算服务商一直将产品与算力更新当做重点，这种“错位”导致了相当量级的资源浪费，以及成本的增加。

一方面，训练 AI 模型所需的算力，还正在以高达每年 10 倍的速度增长；另一方面，云计算的发展速度不仅受制于摩尔定律，还牵扯到从底层到顶层的整个服务架构，并不能靠简单地堆砌 GPU 实现。

面对这些冲突，云厂商们试图通过跨界合作来完成创新，其中火山引擎与英特尔的联手便是一个典型案例。

1 英特尔握手火山引擎，终于拿出了“杀手锏”

英特尔作为 x86 的王者，多年来深耕通用处理器，几乎从底层定义了 PC 时代。在人工智能热潮来临之前，英特尔预见了传统单一计算架构已达到性能和功耗的瓶颈，而将异构计算作为应对 AI 时代算力挑战的关键战略。英特尔提出的 XPU 战略，便是希望整合 CPU、GPU、ASIC、FPGA 等领域的产品线，使 CPU 中不同核心负责不同工作负载，让计算架构能更有效地应对场景化数据。

在 2024 火山引擎 FORCE 原动力大会•冬上，英特尔介绍了至强® 6 性能核处理器，并携手火山引擎共同发布了搭载该处理器的火山引擎第四代通用计算实例 g4il，希望通过优化云服务的底层架构，帮助用户应对多样化的需求。

对比上一代，通用计算实例 g4il 搭载英特尔® 至强® 6 性能核处理器（代号 Granite Rapids，简称 GNR），计算密度大幅提升；同时，得益于采用了双单路架构，使得“爆炸半径”大幅降低，有力保障稳定性；此外，基于火山引擎自研 DPU 板卡和 Hypervisor 等组件，g4il 也实现了软硬一体的深度协同。

g4il 支持多种云盘类型，包括高效型云盘、极速型 SSD PL0，极速型 SSD FlexPL，吞吐型 SSD TL0；在网络层面，g4il 支持采用 jumbo frame（巨型帧）来进行大包传输，可有效减少网络传输耗时和提升网络效率。

为应对 AI 业务的固有特点，g4il 也全面提升了 I/O 能力，整机网络带宽提升 100%，整机存储带宽提升 100%，整机 IOPS 提升 66%，整机 PPS 提升 38%；在 CPU 方面，内存通道为 12CH，支持高达 6400 MT/s 的 DDR5 内存，L3 缓存提升了 60%。此外，g4il 在 AMX int8 和 bf16 的基础上新增支持 fp16 指令集，可以满足更多精度的 AI 运算需求，相比 AVX512 有多达 5 倍算力提升。

综合来看，通用计算实例 g4il 能以更为流畅、高效、稳定的计算体验，有效帮助用户应对 AI 场景及传统复杂运算作业，尤其在数据库应用、Web 应用和视频转码等场景下，可实现最高 20% 的性能提升。

据英特尔提供数据显示，镜像平台提供开源大模型在 g4il 实例验证，以及大模型与 embedding、向量数据库等组合验证，并为 g4il 实例提供企业知识库检索、视频检索分析、数据分析助手、智能体 / 工作流编排等一键式部署方案，一杯咖啡的时间可以让一个知识库助手应用就绪。

用户无需额外购买高性能计算产品，仅需极低的成本即可上手大模型，并且能够轻松部署到多个使用场景中，大幅降低了 AI 开发的门槛。

此外，为了进一步提供高性价比弹性算力，火山引擎基于与字节跳动内外复用的百万核潮汐资源池，推出了业界首创的“弹性预约实例”售卖模式。这种模式支持免费提前预约，到点资源自动交付，在为弹性需求提供资源确定性保障的同时，相较于常规的按量计费实例，还能够节省 33% 以上的算力成本。从内外并池到机型统一，这背后也有英特尔® 至强® 系列处理器的强劲助力。

2 英特尔全方位赋能，做新时代“幕后功臣”

英特尔针对 AI 模型训练、推理等应用场景，以及在硬件增强的安全特性方面，推出了很多自研技术，并内置于英特尔® 至强® 6 中，如英特尔® 高级矩阵扩展（英特尔® AMX）和英特尔® 信任域扩展（英特尔® TDX）。

英特尔® AMX 通过在 CPU 中加入专门用于矩阵运算的硬件单元，以增强对大模型的支持。包括了一组二维寄存器（称为 TILES），以及一个能够对这些寄存器进行操作的加速器 TMUL（Tile Matrix Multiply Unit）。TILES 寄存器可以存储二维矩阵数据，并且 TMUL 负责执行高效的矩阵乘法运算，可以在单个时钟周期内完成大量 INT8、BF16、FP16 精度的操作，极大地提升了每秒浮点运算次数。在文生图和 LLM 场景下，火山引擎成功验证了基于 AMX 的火山引擎通用云服务器在 AI 推理性能上的显著提升。

生成式 AI 兴起后，安全问题再次回归大众视野，用户担心 Gen AI 对骇客行为的升级，英特尔® 信任域扩展（英特尔® TDX）对用户的数据和应用提供端到端的保护。其核心在于创建一个称为受信任域（TD, Trusted Domain）的环境，这是一个被硬件严格隔离的虚拟机实例。

与传统的虚拟机（VM）不同，TD 不仅能够抵御来自同一物理主机上其他 VM 或应用程序的攻击，还可以防止虚拟机管理器（VMM）/ 虚拟机管理程序以及平台上的任何非 TD 软件对其造成的影响。这意味着即使云服务商本身也无法访问 TD 内部的数据，极大地提升了隐私性和安全性。

TDX 的另外一个特性是提供远程认证功能，使工作负载所有者能够验证服务器的可信状态，增强对虚拟化环境的信任。

这些技术特点意味着，在云多租户的环境中，TDX 可以保障不同租户之间严格隔离，简化安全部署。

在 AI 推理方面，英特尔还推出了基于 GNR+MRDIMM 内存优化的全新方案，这种方案是火山引擎对英特尔® 至强® 6 性能核处理器进行了深度调优，带来更大内存带宽和更强 CPU 算力，并在测试中显示，可以大幅提升 LLM 性能。

至强® 6 性能核处理器采用 Intel 3 制程工艺，其特点在于采用单元架构，拥有独立的 IO 单元和内核单元。这种设计使其能够与 GPU 或专用的 AI 加速器高效协作，真正发挥出作为数据中心的“指挥官”，也就是就是机头（head-node）CPU 或主控 CPU 的优势，对比上一代处理器，至强® 6 可以提供更强的 CPU 算力。

MRDIMM 是通过使用高速多路复用器或数据缓冲区，同时读取内存 Bank 并将数据传输到 CPU。更大的内存带宽，使它特别适用于人工智能、高性能计算和实时分析等应用场景。

纵观 2024 火山引擎 FORCE 原动力大会•冬的这次发布，从通用计算实例 g4il 降低 AI 应用的开发门槛，到“弹性预约实例”售卖模式降低算力成本。面对当下全新的算力需求，英特尔的至强® 6 性能核处理，AMX、TDX 等内置加速器、以及目前“独占”的 MRDIMM 技术，正在为大模型落地带来强力的支持。

作为头部芯片厂商，英特尔正在上浮逐步进入业务场景，赋能千行百业实现业务革新。

InfoQ 老友！请留步！极客邦 1 号客服上线工作啦！

后续我将通过微信视频号，以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容，和大家一同成长，开启知识交流之旅