英伟达的国产平替,“GPGPU”概念有机会吗?

是不是在标题里看到了一个熟悉又陌生的词?GPGPU,即通用图形处理器(General-Purpose Graphics Processing Unit),它的确是一个从GPU衍生出的概念。如果说GPU是巨头的游戏场,GPGPU就是一块正在快速开发的新市场。果壳硬科技(ID:guokr233)连线天数智芯首席技术官吕坚平,深度探问国产GPGPU突围之路。
本文系“1000家硬科技公司”栏目第3篇,关注GPGPU云端芯片公司天数智芯。
付斌 | 作者
李拓、刘冬宇 | 编辑
果壳硬科技团队 | 策划
GPU的另一种用法
GPU芯片,也就是我们常说的“显卡”,擅长做并行计算;CPU则长于横向计算。两者组成异构计算的一对黄金搭档。
但你我都知道,过去一年里让GPU一直缺货的原因之一,是它“不务正业”的应用,“挖矿”。矿工们将大量显卡安装在一个机架上组成矿机,通过疯狂压榨GPU芯片算力性能来赚取加密货币。
图片
图源 | NVIDIA
计算领域正初步形成“专用”和“通用”的格局。随着人工智能产业爆炸式增长,导致计算复杂化和算力不足,加上CPU并行计算能力不及GPU,使得GPU的通用性计算优势愈发明显,在一众xPU中脱颖而出,成为算力时代VIP。
为了进一步专注通用计算,GPGPU便应运而生。
GPGPU并不比GPU更厉害,只是去掉GPU的图形显示部分,将其余部分全部投入通用计算,并成为AI加速卡(一种并行计算硬件)的核心。
翻开GPU的历史一查,满本都写着两个字是“通用”。
在诞生之初,GPU的重要使命是“跑游戏”。游戏开发商普遍希望利用画面的差异化优势夺得市场,但仅凭调整硬件参数,无法实现独具特色的图形渲染效果,要满足各方需求,就必须增强其通用性。
从上世纪八十年代到2005年,大量专用GPU芯片厂商浮现。芯片遵循摩尔定律,要18~24个月才能迭代,这意味着硬件也只能随之起舞,而彼时处于发展期的图形算法,几个月甚至几周内就会发生巨大进步。
GPU在图形领域的可编程性经历着不断演进的过程,直到2006年,英伟达 CUDA(Compute Unified Device Architecture,统一计算设备架构),及对应工业标准的OpenCL的出现,让GPU实现更广泛的通用计算功能,GPGPU的概念才算真正落地。
图片
GPU发展历程
在加入天数之前,吕坚平曾在英伟达、英特尔、三星、联发科等众多跨国半导体巨头担任要职,见证了GPU的改变。他坦言,在2000年初在英伟达研发GPU架构之际,团队“头脑风暴”就讨论过“两个图像如何相加”“原有图形上的通用计算如何实现”等问题,彼时就发现GPU可以做很多图形外的计算任务。
后来,英伟达经过多次迭代,发掘了许多图形之外的应用领域,诸如超算、医疗、科学运算等,并获得了不错的回报,并使用GTX/RTX和Tesla两个前缀区分显卡和AI加速卡。
近几年GPU大会显示的趋势是:GPU将会向大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AIGPU)、更加逼真的图形展现(光线追踪 Ray Tracing GPU)三大主要方向发展[1]。
GPGPU是GPU未来重要趋势之一,也是国产的一次机会。
入场门槛极高,却诞生了一个奇迹
在显卡这个成熟市场,强势的英伟达、AMD令后来者难以立足,加之支持桌面级显示和游戏渲染的显卡,背后需要很多技术支持和迭代,因此市场由国外巨头长期把控。不过,该领域并非没有“叫板者”,只是门槛过高,强如Intel,也难以如愿。自1998年推出第一款GPU i740、2007年推出Larrabee都相继失败,而当这家巨头重启独立GPU计划时,已是2020年。
通过GPGPU占领市场,成为国产厂商的另一个选项,这是天数选择GPGPU赛道的原因。
实际上,巨头也做GPGPU,只不过,不同之处是:巨头如英伟达和AMD,在定制“数据中心级GPU”(实即GPGPU)时,只是删除了显示接口,留下图形部分;国产后进者在研发GPGPU时,则不仅去掉了GPU的显示功能,还去掉了图形渲染功能。去掉的功能虽多,但由于国产厂商的研发工作从零开始,难度依然与GPU相当。
高算力的GPGPU芯片,底层硬件如同迷宫,设计和生产的要求十分复杂、专业和苛刻。GPGPU芯片上会放很多运算单元,让这些运算单元最适当组合并拥有最高的运算效率实现难度极大,一个部分计算单位效率不佳,对整个芯片的影响将放大上千倍。
芯片量产前还要经历冗长的设计测试流程。通常一款高端芯片前端和后端设计要耗时1~3年,设计完成后流片环节需要3~6个月,期间还会有流片失败一切重来的风险。即使成功流片,还需经过3~12个月的产品测试调优,才能开启量产。
天数则用三年时间发布了“天垓芯片”,是唯一一款量产的国产全自研GPGPU芯片,一举打破国外巨头多年的市场垄断。
图片
“天垓芯片”大事记,制图 | 果壳硬科技
根据天数官方数据显示,“天垓芯片”以同类产品1/2的芯片面积、更低的功耗,达到了世界先进水平。
该芯片采用7nm制程、容纳240亿晶体管及采用2.5D CoWoS晶圆封装技术,支持单精 (FP32)及半精 (FP16)等混合精度训练,多机多卡互联,单卡半精度算力每秒147T,单精度性能可达每秒37T。笔者查阅英伟达Tesla V100的参数表显示[2],单精度性能可达每秒14T(PCle)/15.7T(SXM2),在单精度性能上“天垓芯片”性能是Tesla V100的2倍。
图片
“天垓芯片”参数指标
“可以用奇迹来形容,毕竟英伟达做了很多年,我们第一代就有了这种性能。这也要得益于核心团队在GPU领域耕耘多年。”
国产满满的机遇,一个策略是关键
吕坚平向笔者展示一组数据显示,2019年中国GPU芯片板卡市场规模为86亿元,2025年将会达到258亿元,增长将近3倍,年复合增长率高达32%。GPGPU将持续“瓜分”整体市场,更多场景将仰赖通用计算,包括数据中心、互联网甚至未来的元宇宙。
他认为国产厂商在GPGPU上有两个机遇。
其一,GPGPU较容易有利润和市场空间。一方面并行计算与AI推理训练的价值远远超过显卡,每张单卡的价格比较友好;另一方面人工智能也是较为新兴的市场,整个业界包括英伟达都在摸索阶段,对于新创公司来说,不会输在起跑线上。
其二,国内厂商正在寻求英伟达以外的替代供应商,这样不仅有更多的可选余地,也能保证货源安全。此外,在自主可控大趋势下,国产企业抱团取暖才能打破垄断的枷锁。
天数的GPGPU芯片能应用在计算视觉、智能语音、智能推荐、自然语言处理在内的AI领域和深度学习、智能制造、生命科学、物理科学、地球科学在内的HPC高性能计算领域。
“天数是国内唯一一家拥有GPGPU产品的公司,从目前已采用天数产品的客户回馈来看,都相当正面。”他说,“这个过程非常艰难,因为客户用的都是国外的产品,天数也采用了兼容主流GPGPU生态的策略,让客户更容易迁移。”
吕坚平表示,天数的底层架构和软件完全自主研发,在面对风险问题时,除采取各种规避风险的方法,还会尽量凸显自主架构的优势,不依赖最新的制程。
官方网站[3]显示,天数还与国内重要行业伙伴一起,从源头对设计定义和本土优化,为大规模商业化做准备。
摩尔定律之外,是GPGPU的未来
每当算力芯片发展受阻,总会有人跳出来高呼“摩尔定律已死”。21世纪初,摩尔定律老化,导致CPU时钟速度竞赛戛然而止。时隔多年,在纳米节点逐渐接近1nm时,业界总要讨论:是延续摩尔定律,还是另辟蹊径。
为此,吕坚平曾发表文章,跳出过去芯片设计窠臼,以可微分GPU及可微分ISP为例,提倡以AI为本的可微分硬件理念。希望借此可重振软硬件彼此加持的雄风,缓解甚至逆转摩尔定律衰退[4]。
吕坚平预测,GPU硬件/软件界面将继续使GPU成为“AI世界的CPU”,基于 AI渲染会让张量加速成为GPU中的主流。虚拟世界和现实世界互相映射的数字孪生理念将主导市场,最终解决架构争论[5]。
天数表示,未来将会越过传统,跳接回归GPGPU的新图形标准、使核心图形硬件可微分,以便可以运用可微分的图形硬件制作更强的AI,以及运用AI带动更优越的可微分图形硬件[6]。
关于天数智芯
图片
硬科技公司相关情况,制表 | 果壳硬科技