智算中心正在CDN化

全文2423字,阅读约需7分钟,帮我划重点

划重点

01智算中心行业面临内卷风险,业务模式类似于CDN,依赖低价竞争和客户迁移。

02然而,智算行业应向上发展,提供更多的精细化和增值服务,如IaaS、CaaS、PaaS和MaaS等。

03为此,智算中心可结合传统通算、网络、存储和安全等服务,形成综合全面的算力服务。

04同时,关注新型终端业务场景,如智能汽车和人形机器人,以满足大模型AI+的需求。

以上内容由腾讯混元大模型生成,仅供参考

欢迎关注下方公众号阿宝1990,本公众号专注于自动驾驶和智能座舱,每天给你一篇汽车干货,我们始于车,但不止于车。

编者按
CDN行业,整体不怎么赚钱。核心原因在于,用户的业务系统构建在公有云或自建的私有云。仅仅是调用CDN资源,对CDN服务没有依赖。当有稍微便宜哪怕仅1%的其他CDN资源时,客户瞬间迁走。
智算行业,目前的业务模式在无限接近CDN。客户的业务系统部署在通用云计算上,只是在关键的智能计算服务时,调度内部或外部的智算算力资源。智算中心,无法为客户提供高价值的服务,无法形成用户粘性。没有差异化,唯一能拼的就是谁的价格更低。
还有一个更大的风险:智算的投入,相比CDN来说,数量级倍增。不赚钱,更高投入就意味着更高风险。
智算中心行业,未来发展该往何处去?

1 CDN服务综述

1.1 CDN技术简介

图片
CDN(Content Delivery Network,内容分发网络),使得用户可就近取得所需内容,CDN分担了内容源的访问压力,同时提高了用户访问网站的响应速度。   
如图所示,当用户访问某个域名地址的内容时,内容源站发现是一个cdn地址,然后会给客户动态分发一个新的IP地址,这个地址不是源内容的地址,而是用户就近位置的CDN缓存的内容,然后用户去这个新地址访问内容。

1.2 CDN业务模式的问题

CDN服务的问题,不在服务机制内部。而在于CDN和用户业务的交互。
客户的业务通常部署在公有云,或者用户自建的私有云。当需要CDN的时候,会额外购买CDN服务。
CDN服务有三个特点:
  • 一个是业务流水大,非常适合于各个CDN企业快速做大业务规模。为了拉升业务规模,就相互之间以更低的价格竞争客户。
  • 另一个是,CDN业务差异性非常小。客户不挑服务商,随便哪家都可以用;用户只挑价格。
  • 最后就是,CDN服务对用户没有任何粘性。用户只需一行代码,即可快速从一个CDN服务切换到另一个CDN服务。
也因此,整个行业疯狂内卷,直到大家都奄奄一息。

2 智算服务综述

2.1 智算租赁模式

智算行业,目前主要是以裸机租赁的方式。裸机租赁是一个比较初级的方式,数百万购买的硬件设备,其价值的挖掘不是由算力中心侧负责。而是直接就租赁给了客户。
有点像石油、矿产等原材料,没有通过深加工把它炼化成初级工业品。在整个工业链条里分利太少,白白浪费了宝贵的原材料。
GPU服务器,就是智算行业的原材料,它需要经过深加工,把它封装成更高级的算力服务,才能赚取更多的收益。
图片
这里我们举一个例子,假设一些量化的数据,来简单解释一下。
假设一个12核CPU(C)和一个12G带宽的网卡(N)组成的物理服务器(仅考虑CPU和网络,问题能简单一点,已经能够说明问题)。如上图,我们通过四种方式实现多种规格的算力:
  • 假设这台服务器成本为10元。
  • 第一种,传统算力租赁方式。完全物理的服务器,仅可售卖一台服务器,同时假设一对C+N为1元,总共卖客户12元。
  • 第二种,基本虚拟化。可以实现算力切分,这样,我们可以把一台物理的机器切分成四台虚拟的机器,可售卖4台计算实例。跟第一种其实就是批发和零售的关系。卖四台,每对C+N卖1.5元,可以卖18元。
  • 第三种,精细虚拟化。不同的计算对各类资源的需求并不是完全对等的,可以针对需求分配多一些的某种资源,其他需求少的资源可以少分配一些。这样,我们可以把一台物理的机器切分成6台虚拟的机器,可售卖的机器实例变成6个。客户仅关注某个资源,我们把1对C+N卖1.5元,把额外的C或N卖1元,这样算下来,就是21元。   
  • 第四种,软硬件协同优化。通过硬件级的性能隔离、更高效的迁移调度,能够实现用户业务无感情况下的超卖,这样可售卖的机器数量会继续增加。通过高效的调度,保守估计,超售比可以做到1.2以上。这样,21*1.5 = 31.5元。
成本10块,最终可以卖到31.5元。当然,我们可以把这些可能的收益反向降价让利给用户。因为跟裸机租赁相比,有非常大的降价空间,所以可以游刃有余的根据市场情况,既给客户更低的成本,又能保持自己产品的竞争力。
这里举例的仅仅是IaaS级的服务,还没有增加CaaS、PaaS、MaaS以及场景和行业解决方案等方面的价值。
回头再看裸机租赁方式,是不是有点暴殄天物?

2.2 智算算力调度

开门见山,直接说个人的看法。
我觉得目前的智算算力调度走进了一个误区。目前的算力调度机制来源于HPC场景的调度机制。也就是这种短期任务的调度(关于算力调度,之前有专门的文章介绍,这里不展开),跟客户业务系统常驻型的任务调度完全不同。
Slurm系统来源于HPC场景,天然就是原生支持这种短期任务型的计算。K8S,本来是亲和于常驻型计算任务的,但行业我了解到的情况是,智算目前基于K8S的管理系统,也是以这种短期任务为主的。
这样就产生一个非常尴尬的现实。
用户的业务系统,通常需要长期处于运行状态的:C端的业务必然是7x24小时时刻不中断, B端用户的业务也大部分需要长期稳定运行。这样,客户的业务系统就只能部署在公有云或用户自建的私有云,而无法部署在智算中心。   
2.3 智算业务模式,越来越像CDN
客户的业务系统不在智算中心,在需要训练和推理的时候,才来访问智算中心。智算中心,无法对客户形成业务粘性;智算中心的业务模式是裸机租赁,同质化严重,大家都只能陷入争相杀价的内卷。
有没有觉得,这跟CDN很像?CDN的现在,就是智算行业的未来。
相比CDN行业来说,智算行业的投入,是天文数字。智算行业的问题只会更严重。
往小了说,会影响行业中从投资人到从业者的收益。往大了说,会影响我国的人工智能事业发展。

3 智算行业,未来往何处去?

不能仅提出问题,还应尽可能给出可行的能够解决问题的方案。
智算行业,未来往何处去?是向下,还是向上?
向下,就是不断的卷价格,“不是你死,就是我亡”,行业进入一个低层次的持续内卷。
向上,就是不断的卷技术,卷服务,给客户提供更多精细化的增值服务。
向下,我无话可说。
向上,我可以展开聊聊:
  • 智算,不仅仅只是智算。围绕着智算的场景,把智算和传统通算,以及网络、存储、安全等方面的服务融合到一起,形成综合全面的算力服务。
  • 整个服务堆栈,不断向上。在裸机之上,封装IaaS和CaaS,再叠加PaaS和MaaS。还需要针对业务场景,提供更多的以AI+为特色的场景和行业解决方案。   
  • 新型终端业务场景的重点投入。随着智能汽车、人形机器人等行业的兴起,相比PC、手机和平板这样的传统终端,这类新型的大算力的终端,对云和边缘的算力服务,以及云边端融合的整体解决方案,提出了更高的要求。新型大算力终端,是大模型AI+的重要落地场景,也是未来的数个万亿级新蓝海市场。