芯片元老卢山出走创业,字节依然在押注服务器芯片

图片
图片来源@视觉中国
文|电厂,作者|张勇毅,编辑|高宇雷
2023 年 5 月,字节跳动负责 RISC-V 以及服务器芯片业务负责人卢山从字节离职创业,成立蓝芯算力,据称其主要业务方向仍是 RISC-V 数据中心 CPU(中央处理器),目前正在进行首轮融资,投前估值超过 1 亿美元。
芯片行业近两年并不缺乏各种大厂芯片团队「独立」,寻求独立融资,甚至更进一步商业化发展的故事:百度已经于 2021 年将旗下芯片业务分拆成为独立的昆仑芯科技有限公司,阿里高管也曾公开表示对于平头哥分拆/独立融资持开放态度。
但这一次,蓝芯算力似乎并不是另一个「降本增效」自负盈亏的故事:根据天眼查的公开数据显示,蓝芯算力(深圳)于 2023 年 5 月 23 日成立,注册资本为 980 万人民币,法定代表人为卢山,卢山名下的两家全资控股公司共占有蓝芯算力的 89.8% 股份。
图片
在进入字节之前,卢山曾在英特尔与高通任职,从事 SoC/CPU 芯片方向的设计开发工作。加入字节跳动之后,卢山也一直在圣迭戈办公室任职,主导芯片计划中 RISC-V 指令集服务器芯片相关研发工作。根据领英主页关于这段工作内容的介绍,他在字节跳动「负责数据中心集成电路芯片设计工作」。截至发稿,卢山的领英主页并未更新他的下一步 —— 蓝芯算力的计划。但据相关接近字节芯片业务的人士透露,卢山本人已经回国,为蓝芯算力的下一步融资做准备。
图片
就目前信息来看,蓝芯算力似乎与字节跳动保持了一段微妙的距离,至于未来蓝芯算力是否会接受字节跳动投资,或是蓝芯算力在芯片研发上与字节跳动展开相关合作。《电厂》记者向字节跳动询问此事,对方拒绝评论,并表示「目前没有可以披露的相关信息」。
字节的芯片之路
字节跳动入局芯片领域的时间,相比阿里、百度等公司要晚一些:在 2018 年,中兴被美国商务部禁运之际,字节跳动副总裁杨震原曾表示:
也是在此之后,卢山加入了字节跳动字节跳动圣迭戈办公室尚在筹建中的芯片团队,向字节芯片团队负责人王剑汇报。
但直到 2020 年下半年 —— 同时也是全球芯片供应链受疫情冲击最严重的阶段,字节才最终启动了自研芯片项目:据《晚点 LatePost》报道,字节跳动从 2020 下半年开始组建芯片研发团队,到 2022 年,字节已经至少启动了四个芯片项目,包括 AI 芯片、FPGA NIC 项目以及服务器芯片/RISC-V 项目,后两个项目的负责人正是卢山。
几乎所有在线服务平台,都需要巨量的服务器芯片用于构建「基础设施」,巨大的在线流媒体数据传输量,以及视频编解码,云端推理加速等场景,都迫使厂商不断购买海量的服务器芯片来维持全球各地的自建数据中心正常运行:根据 Alphabet 财报公开的数据显示,Google 每季度都要从市场中采购超过 30 万颗服务器芯片,用于包括 Google Cloud 以及 YouTube 等业务。
这样的大单不仅引来高通、英特尔等巨头的争夺,也促使在线服务巨头纷纷将自研服务器芯片作为「第三选择」;作为拥有 Tiktok、抖音等巨型平台的字节跳动,即使一直有着「重算法、轻算力」的传统,也不得不重视服务器芯片的自研:对于服务器芯片用量巨大的字节跳动来讲,自研芯片不仅意味着能够减少硬件成本,与字节系软件服务实现更好地协同,还意味着能更方便地按照需求控制供应链。
但截至 2023 年,字节跳动的芯片研发团队仅有约 300 人左右,这个团队规模相比阿里、华为等国内服务器芯片厂商普遍 2000 - 4000 人的规模,要低出一个数量级。 但仍比同样入局芯片行业的腾讯要高出一个数量级:在不同的经营模式之下,腾讯选择了「设计+联合研发」的路径,芯片相关团队的人数只有 60 余人。
团队规模的巨大差异,也意味着字节的自研芯片之路采用了更接近腾讯的模式,同时刻意避免将芯片直接商业化,将使用范围控制在「自产自销」,根据自身使用需求来定义设计,也能更好的控制研发成本。
「如果自研芯片过于高调,可能会对(字节跳动服务器芯片)现在的合作关系造成较大的影响」一位芯片行业从业者对《电厂》记者表示,字节的在线服务体量决定了其有能力仅靠自有设施需求支撑起自研服务器芯片的发展,也更适合开发专用芯片。
字节跳动也很少对外公开过任何自研芯片的相关进展:最近一次公开在公开场合介绍相关进展是在 2022 年,杨震原称字节目前并未在研发 CPU、GPU 等通用芯片,自研芯片主要字节跳动自身的视频编解码、云端推理加速等场景,同时也提到了字节「正在与供应商合作探索 RISC-V 架构芯片在云端的使用」。同时还重申字节并无关于通用芯片的商业计划。
但这仍无法解释服务器芯片进展缓慢的原因:2022 年,据《晚点 LatePost》报道,字节自研 AI 芯片「进展迅速」,第一代可能已经到流片阶段,部分消息来源表明已经到了「灰度测试」阶段。但卢山负责的服务器芯片领域,却一直没有相应的进展传出,甚至有数个未经证实的消息来源表示「字节服务器芯片项目受阻」。
但无论如何,字节都没有在此之后公开发布任何自研芯片产品的实际运用。也从未披露过服务器芯片领域的研发进展,而距离 2020 年已经过去近三年,对比包括平头哥、百度、腾讯在内,采用不同研发模式的芯片厂商,第一代量产产品的问世基本都在 3-4 年之间,但如今字节的进度明显滞后,这也侧面证实了传闻中「字节跳动自研服务器芯片受阻」的传闻。
或许在字节自研服务器芯片项目的受阻,也是卢山最终出走字节,选择独立在芯片领域创业的原因。
为什么会押注RISC-V ?
RISC-V 是一种指令集,和 x86 以及 ARM 一样,定义了芯片和软件的设计规范。我们日常更加熟悉的 x86 被广泛应用于高性能工作站以及数据中心处理器中,而 ARM 属于精简指令集,在很长一段时间内都主要应用在手机以及车机领域。
但随着技术趋势的逐渐变化,以往的精简指令集也获得了成为高性能芯片指令集的机会,苹果已经全线使用 ARM 芯片替代了此前的 Intel x86 架构芯片,也有越来越多 ARM 架构 CPU 走进了数据中心芯片领域,而 RISC-V 与 ARM 同属精简指令集,也在近两年获得不少开发团队的青睐。
但曾经被视为整个芯片供应链中最稳定一环的 ARM 公司本身,如今也不再稳定:不仅在风雨飘摇的贸易战被多方担心是否会被迫遵守美国出口管制,也伴随着英伟达计划收购 ARM 而被卷入各种争议, ARM 再也不是曾经厂商眼中的稳定、中立、可靠的象征。
这也让更多芯片厂商将眼光投向了 RISC-V,卢山所创立的蓝芯算力,选择的也是这个研发方向,希望基于 RISC-V 指令集,设计能用于数据中心服务器的通用 CPU。
即便指令集与芯片性能无关,作为服务器芯片的选择,RISC-V 指令集目前虽然有着一些 ARM 所不具备的优势,但真正影响商业公司做出选择的往往是指令集的生态建设:过去有不少中国芯片厂商在发力 RISC-V 生态领域,推动着 RISC-V 生态走向成熟,平头哥发布的首款自研通用服务器芯片 —— 倚天 710,所采用的也 RISC-V 指令集。
平头哥甚至成为了推动 RISC-V 生态建设的重要参与者:2023 年 1 月,Google 官方宣布 Android 系统正式支持 RISC-V 指令集,在可以预期未来还将成为与能与 ARM 平起平坐的「一级平台」。
图片
但短期内,RISC-V 还难以在数据中心芯片、尤其是通用 CPU 领域与 ARM/x86 相提并论「目前 RISC-V 指令集更多机会还集中于单片机以及物联网设备,在数据中心芯片市场中还很难与 x86 以及 ARM 竞争」这位芯片行业分析人士对《电厂》记者表示,现在谈论 RISC-V 全面成为「服务器芯片国产替代」还为时尚早,但 RISC-V 仍然有机会在用时间换空间,通过长期的发展赢得服务器芯片市场。
字节芯片,何去何从?
目前,即使卢山已经出走字节独立创业,但字节芯片团队仍然维持着招聘的节奏:相关求职软件中仍能找到字节芯片团队关于前端设计、SoC 验证、模型性能分心,以及芯片 DFT 工程师等职位的 HC。
除了自有芯片团队的组建,字节跳动同时也一直在外部寻找合适的芯片公司投资标的:过去三年字节连续投资了数家芯片企业,既有同属 RISC-V 领域的公司睿思芯科,也有数据中心芯片公司云脉芯联,以及 GPU 芯片独角兽摩尔线程。
除了服务器芯片之外,字节其他已经启动的芯片部门也都有正常进展,无论是用于优化推荐算法的 AI 芯片,还是用于短视频处理需求的视频编解码芯片,在字节内部都有着足够庞大的使用需求,这也决定了字节并不会轻易放弃自研芯片业务;反之也不会为此加速扩张团队。以相对较小的投入,满足内部对于芯片的使用需求同时提升效率。仍然会是当前一段时间内字节自研芯片业务的主要状态。