来源:科技最前线 (kejizqx)
刚刚过去的2024年,被定义为“大模型落地元年”,经历了一年的潮涌与洗练后,市场渐渐对眼花缭乱的概念祛魅,开始务实精明了起来。
原理上,智能算力催生了大模型。大模型产业爆发又带动了智能算力市场。算力资源是千行百业智能化建设的基础,甚至有掣肘一个市场、制约一些行业的能量。就像英伟达CEO黄仁勋曾经讲过的“算力即权力”,如何构建?怎样布局?微观讲事关企业发展、价值实现,长远看甚至会影响到产业升级、国际竞争。
不过,依据当下依旧通行的Scaling law原则,想要令大模型发挥的效力越高,就需要匹配指数级增加的算力作为支撑。可全球范围内,AI算力的采购成本、研发成本一直以来居高不下,令不少企业在数智布局时“望而却步”。
AI智算基建如何加速蜕变?算力厂商拓出“另一条路”
此时,能够提供算力一体化解决方案的AI厂商,或许能为有迫切业务转型需求的企业,提供“烧钱”自备以外的另一条路。最近两年,在国际市场上,新增算力主要向几个公有云厂商集中。在国内,尽快加深集群式国产替代智算能力的呼声也越来越高。这些厂商们对AI进行了长时间、高强度的投入,无论是算力规模、模型规模,还是软件生态都具备一定的市场优势。企业采购这类算力,不仅性价比较优,对产业链的赋能也比较齐备,能够令数智策略从想法变为现实,激发出新的增长活力。
国内市场上,百度是切入这一领域最早、最深的互联网巨头。百度智能云提出的百度百舸AI异构计算平台,从推出之日起就被定位为面向大规模深度学习的高性能云原生AI计算平台,提供更全面的算力集群运维支持和大模型训练生命周期管理,助力企业在大模型时代的业务转型。
2024年9月,百舸AI异构计算平台更是升级至4.0版本。升级后的百舸,围绕落地大模型全旅程的算力需求,在集群创建、开发实验、模型训练、模型推理四大方面,能为企业提供“多、快、稳、省”的AI基础设施。
集群创建:通过简化集群的创建流程,百舸平台实现了高度的自助服务,允许企业用户快速设立计算环境。
开发实验:用户可以利用平台提供的工具,进行灵活的实验和评估,帮助开发者快速迭代。
模型训练:凭借多芯混合训练的强大能力,企业可以大幅缩短模型的训练周期,同时提升精度。
模型推理:升级后的推理框架更具灵活性,能够支持不同模型在不同场景下的应用。
另外,百舸4.0还对“多芯混训”能力进行了重点升级,实现了在万卡规模集群上95%的多芯混合训练效能,达到业务最领先水平。
尺度定律主导AI技术迭代,为什么要打造10万卡集群
最近,业内视作AI“暴力美学”的Scaling law(即尺度定律)被证实最早由百度工作人员发现并分享,而非后来的Open AI。这一发现为全球AI研究做出了重要贡献,且如今仍主导着全球智算市场的建构思路。
Scaling Law即尺度定律表明,随着数据量和模型参数规模的增加,AI模型的性能将不断提升,智能涌现的概率越大。对比一下GPT两个版本的训练数据就能得出答案:公开数据显示,GPT-3的训练数据集包含3000亿个token。而GPT-4的训练数据集包含约13万亿个token。AI大模型如果要持续进化,数据量的指数级增长就不可避免,对算力能力的需求只会与日俱增。
毫无意外的,作为AI浪潮的两大领军阵营,无论是国内还是美国,科技巨头们都正在积极打造10万卡集群,冲刺AGI:大洋彼岸,X AI、Meta、OpenAI等众多科技巨头都在积极布局10万卡乃至更大规模的智算集群;而中国这边,以深扎B端市场的云厂商譬如百度智能云,旗下的百舸4.0也具备了10万卡集群部署和管理能力。
需得注意到的一点是,所谓10万卡集群,并不单单只是过去企业部署内网,简简单单加几台服务器或是建立几个服务中心的概念。
据估算,一个10万卡集群每天的耗电量达到300万度,相当于北京市东城区一天的居民用电量。此外,10万卡集群需要大约 10 万平方米,相当于 14 个标准足球场的面积。如果想在单一建筑中部署这么大的集群,将面临选址困难和法规限制等挑战。
百度集团执行副总裁、百度智能云事业群总裁沈抖就指出,10万卡集群的管理运维难度相比万卡集群显著上升,不仅是对传统的机房架构带来了极大挑战;跨地域部署虽能提升效率,但也会引发网络通信的复杂性;而对于不同厂家、不同地方的GPU集群,管理的复杂性无疑将更加增重。
不过,百舸4.0通过两方面的攻坚,还是解决了上述挑战。
首先,在AI芯片的供给上。最近两年,美国对其AI芯片出口实施极为严格的全球性管制措施,尤其是针对中国市场,从规格到技术,甚至连代工厂都赫然列于限制清单。这一政策,对仰仗芯片实现算力部署的相关产业链,影响巨大。此前,Deepseek创始人梁文峰在公开采访时也坦言,能够限制其平台发展的不是融资或者模式,而是高端芯片被禁运。
因此,在目前国内芯片供应相对紧张的情况下,企业要确保供应链的安全和弹性,一云多芯是必然选择。百舸4.0在万卡规模上,两种芯片混合训练下的效率折损控制在5%以内,保持了业界领先。
其次,是通过提供高效的拓扑结构、跨地域无拥塞高性能网络和高效的模型并行训练等方案,在横跨几十公里的多机房组成的万卡规模的集群上,百舸可以把单一训练任务的性能折损控制在4%以内。
“一步赶前,步步领先” 企业数智跃迁“选择大于努力”
人们常说,很多时候“选择大于努力”,这句话放在企业数智转型这个场景里面同样适用。
已知可见的是10万卡集群出现后,算力厂商能够为企业的智能化布局、产业转型提供更有效率、更加精准的服务,根据不同企业的需求动态分配计算资源,令成本更低、赋能更强。
比较有代表性的就是生数科技开发的国内首个全自研的视频大模型Vidu这一案例。在Vidu上,孩子们能够让AI帮忙“让想象变为现实”,只需输入一句话或上传一张图片,即可快速生成视频,让奇思妙想丝滑呈现在二次元世界。
(图片来源:新闻截图)
该模型实现的基础正是百度·百舸AI异构计算平台强大的平台调度和机器管理能力,令生数科技能以最高效率、。 最低成本训练Vidu多模态大模型经历过数个月的快速迭代后,如今的Vidu已具备多项全球领先优势,实现业界最快实测推理速度、率先攻克“多主体一致性”难题等。
由此可见,百度百舸不仅是多模态大模型迭代的强劲引擎,更为智能体的创新和升级提供强大的技术支持和算力保障。
总体来看,单就中国市场来讲,算力集中在云厂商手中,与B端市场深度融合,探索共生,或许就是当下能够实现算力普惠,产业链全端“智能跃迁”的必经之路。
像是10万卡集群等算力基建推广以及再度升级后,能够预见就在不远的未来,AI爆发必将带动更为深远的产业变革,甚至可能引领整体社会向数字化、智能化转型,这波转型机遇至少“百年难逢”,企业理应尽早布局参与到这个生态里,才能越早涌现出领先行业的高势能创新,“一步赶前,步步领先”。