这两天,半个科技圈都在「打卡」乌镇。
鹅也去了,顺手捧回个大奖——腾讯Angel机器学习平台斩获2024世界互联网大会「领先科技奖」。
这个奖的评选,严苛至极:技术务必硬核,实用性必须在线,还要对社会和经济产生实打实的效益。今年申报项目多达270个,但整体入围率仅7.4%。(可给鹅骄傲坏了,叉会儿腰先)
难度这么大,Angel机器学习平台如何脱颖而出?
先搞清楚一个概念:训练大模型,其实就像流水线作业,数据、算力和训练推理平台是三道关键工序,少了哪一个都运转不起来。
然而,很多企业的流水线要么训练框架「卡壳」——算力用不满,资源白白浪费;要么平台规模「掉链子」——协作撑不住,任务堆成山……结果就是效率低下,成本还蹭蹭往上涨。
腾讯Angel机器学习平台,就像是为大模型打造了一条「超级流水线」,投入数据「原料」,就能训练出可直接部署的大模型,又高效又稳定。
究竟是如何做到的?跟鹅一探究竟:
//网络互联:通信速度提升30%,成本降低70%
流水线的起点,是数据传输。网络连接就是传输数据的「传送带」,过去的「传送带」又窄又慢,数据堵在中间,GPU只能干等着,白白浪费算力资源。
腾讯Angel机器学习平台装配了全新的「传送带」。通过自研的RDMA网络技术,不仅让传送带变宽(带宽提升30%),还减少了传输中的「卡顿」(延迟降低),降低70%的成本。
//框架效率:训练性能提升2.6倍
众所周知,大模型训练是算力消耗大户,尤其是显存。过去的训练框架,就像流水线上老旧的机器,效率低下,很多显存空转浪费。
Angel机器学习平台就像给流水线换了一台「智能加工机」。通过显存+主存一体化管理技术,每一滴资源都被榨干利用,训练性能直接提升2.6倍,又快又省钱。
//平台规模:GPU集群加速比提升至99%
训练万亿规模的大模型,往往需要几万张GPU卡协同工作。传统架构就像手工作坊:流水线上任务分配混乱,资源利用率不到一半,生产效率低下。
Angel机器学习平台优化任务分配机制,如同在流水线上建起「智能调度中心」,让流水线的每个工作台(GPU节点)都各司其职、默契配合,GPU集群加速比从50%提升到99%,变得高效有序。
至此,经过层层打磨,大模型「生产」已基本完成,再加上最后的推理(模型推理本质上是将训练得到的参数和推理任务结合在一起,就像装配线上的最终组装环节),就可以在实际场景中使用啦。
基于Angel机器学习平台,腾讯自主研发了万亿级别的混元大模型,率先采用混合专家模型(MoE)结构,跻身中国大模型第一梯队。
目前,Angel机器学习平台也广泛应用于腾讯内部700多个业务场景,并通过腾讯云服务30万行业客户,覆盖广告、金融等多个领域。
大模型时代,Angel已经建好了超级流水线。又快又稳,等你来!