阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求

【环球网科技报道 记者 林梦雪】在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。

阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人吴结生在第20届CCF全国高性能计算学术年会(CCF HPC China 2024)期间谈到,如今数据已成为企业不可或缺的资产,而随着人工智能技术的不断进步,云计算与AI的结合正迅速成为企业发展的新趋势。不久的将来,每家企业都将转型为“数据+ AI”的新型公司。云计算持续遵循着Scaling Law,能够提供大规模、可扩展的计算能力和存储能力,以适应企业业务和AI模型的不断扩展需求。通过云计算,企业能够加速采用人工智能技术,推动智能化创新的实现。

多元化负载驱动高性能计算创新

当前高性能计算领域正面临着日益多元化的工作负载需求。从基础模型的训练、自动驾驶,到生命科学、工业制造和半导体芯片等前沿领域,高性能计算的应用场景不断拓展,负载特性也日趋复杂。

图片

“这种多元化的负载需求,对高性能计算提出了全新的挑战。”吴结生表示,“我们需要通过多样化的产品、系统架构和技术方案,来满足不同负载对计算能力、存储性能、网络带宽等方面的差异化需求。”

根据算力耦合度和数据密集度,吴结生将高性能计算负载大致分为极致耦合型、紧耦合型和松耦合型。

针对多样化的负载需求,阿里云构建了完整的高性能计算基础设施,通过相应的产品来满足不同类型的HPC负载的需求。“灵骏智算服务满足极致紧耦合的HPC负载需求。典型的代表就是大模型的训练;E-HPC高性能计算,支持紧耦合的HPC负载;E-HPC Instant计算服务,支持松耦合的HPC负载。”

图片

阿里云供图

弹性能力与阿里云CIPU引领“数据+AI”时代

在谈到Cloud HPC(云上高性能计算)与传统HPC的区别时,吴结生强调了弹性能力的重要性。

“Cloud HPC的最大优势在于其弹性能力。”他表示,“通过云上的资源池和弹性调度技术,我们可以根据客户的需求快速创建和释放计算资源,实现计算能力的按需分配。这种弹性能力不仅提高了资源利用率,还降低了客户的成本。”

此外,Cloud HPC还具备对异构计算的兼容性和快速部署的能力。吴结生指出,随着AI技术的不断发展,异构计算已经成为高性能计算的重要组成部分。阿里云通过提供对GPU、FPGA等异构计算资源的支持,以及一键部署、自动化管理等便捷功能,为客户提供了更加灵活和高效的高性能计算解决方案。

他进一步强调,Cloud HPC的优势不仅在于其技术能力,更在于其能够与客户的业务流程紧密结合,提供端到端的整体解决方案。通过弹性高性能计算平台E-HPC,整合计算、存储、网络和安全等方面的能力,阿里云帮助客户实现了业务流程的优化和效率的提升。

在采访过程中,吴结生还多次提到了阿里云自研的CIPU(云基础设施处理器)的价值。他进一步指出,通过整合CPU、GPU和加速卡的能力,CIPU架构为阿里云提供了强大的差异化竞争力。无论是在大数据处理、高性能计算还是AI训练等领域,CIPU架构都发挥了重要作用。“我们从2017年开始,一直致力于 CIPU 的创新和演进。最近我们发布了 CIPU 2.0,在安全、稳定性、性能等方面得到全面的升级。”吴结生进一步分享道。CIPU 2.0 支持更高性能的弹性 RDMA,进一步加强了 E-HPC 使用弹性 RDMA 支持 HPC 负载的能力。

智算为基,阿里云助力多行业驶向数据+AI的“高速路”

写一篇旅行攻略需要筛选目的地、预订交通住宿、规划行程等,耗时又费力。用户使用AI大模型时,只需要简单的“帮我写一篇去**的旅行攻略”提示词,几秒内就可以生成一篇详细的旅行规划。写宣传文案、写论文、做会议总结,做各类图像和视频内容等,在AI浪潮下,各类大模型应用产品将很快成为许多人工作生活的“标配”。

但是在大规模的模型训练过程中,经常会遇到各种原因而被迫中断。事实上,大模型的预训练过程依赖于集群化架构,需要构建包含成千上万张加速计算GPU卡的大型集群。这个集群本身就像一个巨大的整体,任何单个节点的故障都可能导致整个训练过程的暂停。吴结生比喻说,训练大模型类似于一群人两两绑腿一起行进,这种并行协作的方式一旦有成员反应迟缓或跌倒,整个团队的前进就可能受阻。

“让每张GPU卡,每台机器都以相同的‘步伐’前进,才能提升整体的模型训练效率,这也是阿里云与头部大模型客户共同在推进的一个重要方向”吴结生说道。

月之暗面作为一家创业型的大模型与AI应用公司,凭借其独特的Kimi智能助手APP迅速崭露头角。这背后离不开阿里云强大的计算平台支持。月之暗面的大模型训练与AI应用扩展,对于计算性能、稳定性以及效益都有着极高的要求。阿里云为月之暗面提供了一个大规模、高性能且稳定的智算平台,确保了大模型训练的顺利进行。同时,阿里云还通过优化资源配置与调度,为月之暗面提供了高性价比的解决方案,助力其在激烈的市场竞争中脱颖而出。

在汽车制造业,“卷”价格、“卷”技术已经不是新鲜事,车企们不断推陈出新,不仅要在续航里程、充电速度等硬指标上领先,还要在驾驶体验、个性化服务等方面赢得用户的心,这些都离不开汽车厂商在研发效率上的提升。

以汽车厂商为例,阿里云通过其弹性高性能计算(E-HPC)服务,为汽车厂商提供了一个全流程的仿真计算解决方案。在这个平台上,工程师们可以高效地进行汽车设计、模拟测试与优化改进等工作。“得益于阿里云的高性能计算、网络与存储技术,仿真计算的效率得到了显著提升,达到了25%的增长。这不仅帮助汽车厂商实现了研发目标,还为其节省了大量的研发费用。”吴结生说道。

在生命科学领域,药物计算过程波峰算力需求大、平均算力与波峰之间相差悬殊等问题一直是制约新药研发效率的关键因素。阿里云通过E-HPC Instant产品智能调度全局资源,望石智慧的科学家们可以灵活申请所需的算力资源,进行大规模的药物计算与模拟实验。吴结生补充称,“得益于阿里云的海量的计算资源,药物计算的效率得到了显著提升,同时成本也降低到了原来的三分之一。不仅加速了新药研发的进程,也为望石智慧在激烈的市场竞争中赢得了宝贵的先机。”

进入AIGC新时代,人工智能应用需要不断夯实算力底座。作为引领未来发展的关键力量,算力也是构成新质生产力的重要部分。面对新的科技革命与产业变革,新质生产力是一种更高效、更先进的生产发展模式。它关注的不仅仅是“新”,更重要的是实现“生产力”的跃升与结构的优化。高性能计算为人工智能、云计算、大数据、物联网等提供了强大的计算能力。我们期待看到,阿里云作为云计算行业的引领者,与基础模型、智能驾驶、生命科学、能源、制造等行业玩家共同携手,持续带来更多产业应用的发展。