CPO和OIO的时间表

信息平权

2024-10-27 18:37发布于上海

第一件事：

今天产业群一位技术大佬分享了英伟达OCP上的材料，这个图让人眼前一亮（下图）。过去我们以为基于这一代GB200的superPOD最高可以做到576卡，现在竟然有了1152卡全互联。这事儿3月份GTC后我们密集讨论了多次，576卡的问题在于：1）L2网络实现过于昂贵，网络快和GPU成本一样贵了，能耗也会非常恐怖；2）因此576卡superPOD很难有场景。那么1152如果真的是三层网络，那成本能耗都爆炸了难以想象。而NVlink最高寻址范围其实可以到2500+，如何降低L2/L3层的成本、能耗，或许是能否被下游采纳的关键。

第二件事：

上周日我们发了CPO的文章后反响很多，目前看下来scale-out网络交换层走向CPO是巨头都在努力的方向，只是时间表预期、生态能否推动有争议。这里面很大一个变量，是台积电COUPE平台会大幅降低OE光引擎集约化的技术门槛，一旦成功就是潜在的技术突变（参考我们的历史文章：台积电硅光）。按照X800 CPO版本的量产时间、台积电COUPE 2.0时间表、博通Bailly CPO时间表，都指向了2026年

第三件事：

3天前HPCwire采访了Ayar Labs CEO，最大的message就是——“2026年-2028年实现光IO（也就是OIO）量产”。这家公司其实一言难尽...有幸在2021年和他们前任CEO开过Zoom会，3年以来，虽然中间chatGPT横空出世互联技术加速腾飞，但Ayar这家公司的roadmap一拖再拖，量产时间不断delay，今年勉强能出1万颗样片。而当年那位CEO，现在已经跳槽到了英伟达负责某块业务的销售...回到这个新CEO的采访提及的量产时间，如果翻回2021年那一轮的BP，其实已经推迟了很多。

上面三件事讲完，可以汇聚到下面这张图。

Compute互联目前显然被电垄断，比如GPU IO，GPU to HBM，GPU to CPU，未来有可能走向OIO，但道阻且长。Network，无论是front-end Back-end还是scale-up scale-out，围绕Switch ASIC的光引擎的封装集约化，似乎是大势所趋，且相对而言比OIO时间表会更早。

得出什么结论呢？（仅为个人观点）

CPO的时间点可能是2026，OIO的时间点至少要2027-2028，甚至更晚。这里面有技术的原因（比如台积电的时间表），有生态的原因，可能我个人对Ayar这家公司也有偏见...
在OIO成熟之前，L1层只能且最好用铜，按照老黄原话“Low cost low power high stability, use copper as more as possible”
而降低L2 L3层的能耗和成本（由于天然的物理瓶颈不可能走铜），围绕switch的CPO可能是中期答案。但量产归量产，能卖多少？聊了更多通信行业的技术大佬，这个问题是有争议的…
模型进化对infra的要求，过去我们叫“内存墙、带宽墙”，换种说法就是“带宽成本”（包括金钱和能耗）。而无论是铜缆、CPO、还是未来的OIO，都是为了尽可能降低带宽成本，在有限金额、有限能耗的条件下，降低延迟、压榨出越来越多的带宽。
按照台积电的COUPE路线图，台积电在AI上的涉足范围，正在从compute渗透进入network（通过先进封装），这个隐含的叙事所对应的价值空间可能是巨大的。本质上，是将过去离散的系统模块，集成到硅，这反正也是过去几十年的科技发展脉络。
说句题外话，“悲观者正确，乐观者成功”，最近一年最大的体会就是不要轻易看空科技，在国内也是，看过去10年全球科技的进步是一直超预期的，何况现在多了一个加速发动机...

（以上报告都已上传社群，更新了新的英伟达供应商名单、智谱AutoGLM的投资机会讨论）

查看原图 216K