拿英伟达“开刀”,是中国GPU自主化的一步险棋!

图片

近日,中国科技领域接连发生两件大事:

12月3日,包括中国半导体行业协会在内的多个权威行业组织,罕见地发布公告,警告美国芯片产品的安全性和供应稳定性问题,建议国内企业在采购时保持高度警惕;

12月9日,中国市场监管总局宣布,对全球GPU巨头英伟达展开反垄断调查。

这两件看似独立的事件,却隐隐透出一条清晰的主线:在全球芯片供应链受限、中美科技竞争加剧的背景下,中国正有意减少对美国产芯片的依赖,特别是对英伟达GPU产品的高度依赖。

英伟达,毫无疑问是全球AI计算领域的王者。在AI模型的训练与推理中,GPU是核心算力的提供者,而英伟达的GPU市占率超过90%,几乎在AI训练市场占据垄断地位。无论是ChatGPT这样的超大规模语言模型,还是自动驾驶、图像识别等前沿应用,背后都有英伟达的身影。

不仅如此,英伟达的霸权不止于硬件。其自主开发的CUDA生态,早已成为AI开发者的“操作系统”,从底层硬件到上层算法工具一应俱全。可以说,英伟达不仅掌握了硬件性能的高地,还牢牢控制了开发者生态的护城河。

然而,这样一家巨头,也成为中国“卡脖子”技术的象征。

目前,中国正处于AI大模型发展的关键时期。训练大模型需要海量数据、复杂算法,更需要强大的算力支撑。作为支撑AI发展的“底座”,GPU的短缺和技术封锁直接决定了中国AI产业的上限。

但摆在面前的,是一对矛盾:一方面,中国需要大规模的GPU支持来推动AI行业的发展;另一方面,美国的技术封锁让中国对英伟达等美国产品的依赖变得极其脆弱。

在这种背景下,中国的两大动作——行业协会警告和反垄断调查——不禁让人联想:中国是否已经准备好对英伟达“开刀”?更重要的是,国产GPU是否已经有能力接过这一重任,承担起支撑中国AI发展的任务?

如果答案是否定的,那么此举可能会对中国AI产业带来短期阵痛;如果答案是肯定的,那或许意味着国产GPU已经迎来属于自己的“拐点时刻”。

某种程度上,这是一场关于技术自立的“豪赌”。

图片

国产GPU能否在这一轮科技竞赛中破局,关乎的不仅是AI产业的发展,更是中国在全球科技版图中的未来地位。

设计领域,国产GPU是否已经准备好?

中国的GPU产业尽管起步较晚,但近年来,以华为昇腾、壁仞科技、寒武纪、景嘉微和摩尔线程为代表的一批企业正在迎头追赶。这些企业通过自主研发和技术创新,在设计能力上取得了长足进步,逐渐缩小与国际巨头的差距。

华为昇腾:AI算力的领军者

华为的昇腾系列芯片定位于AI计算领域,其高性能计算能力使其在训练与推理任务中表现优异。以昇腾910为例,这款AI芯片在浮点运算性能(FLOPS)方面达到256TFLOPS,已经能够支持主流大模型的训练需求。此外,昇腾的“MindSpore”生态进一步丰富了其应用场景,为国产GPU生态奠定了基础。

图片

壁仞科技:冲击算力高地的“黑马”

壁仞科技近年来凭借其BR100芯片成为行业焦点,据悉,BR100是全球首款采用Chiplet设计的大算力通用GPU,在AI训练与推理、科学计算等场景中展现了强大潜力。这标志着中国在GPU芯片架构设计上迈出了重要一步,开始具备与国际先进设计理念抗衡的能力。

寒武纪:推理与边缘计算的稳健选手

专注AI芯片的寒武纪,通过MLU系列产品(如MLU290、MLU370),逐步占据国内AI推理市场的高地。其芯片不仅在深度学习推理中表现稳定,还广泛应用于智能驾驶、医疗影像等垂直领域,展现了灵活性和适应性。

景嘉微:嵌入式GPU的多元玩家

景嘉微以嵌入式GPU起家,其产品广泛应用于航空航天、工业控制等特殊场景。这种聚焦细分领域的策略,让其在“短板领域”填补了市场空白。

摩尔线程:瞄准图形计算的先锋者

摩尔线程是国内为数不多专注于图形计算领域的GPU企业,其自研的MUSA(摩尔线程统一系统架构)让人眼前一亮。针对渲染、视频编解码等场景,摩尔线程逐步完善产品布局,成为国内图形计算的重要补充。

国产GPU与英伟达的性能较量,差距还有多远?

虽然国产GPU设计能力在近年来取得了显著突破,但与英伟达这样的国际巨头相比,依然存在差距。英伟达的H100、A100系列GPU,目前仍是全球AI计算领域的顶级产品。

国产GPU与英伟达的差距,体现在多个方面,例如:英伟达H100基于5nm Hopper架构,支持HBM3内存,单卡算力超过1000TFLOPS,而国产GPU在多项参数上仍逊色于英伟达;在能耗比和散热设计等方面,国产GPU与英伟达的产品仍有一定距离。

另一方面,国产GPU在推理任务和边缘计算场景中,已经表现出接近甚至媲美英伟达的能力。例如寒武纪的MLU系列和壁仞的BR100,在推理性能上可以替代部分英伟达的中高端产品。此外,由于美国对华出口管控政策的限制,中国能够获得的英伟达芯片往往是“阉割版”,如A800(A100的降级版)。在这种情况下,国产GPU的性能差距进一步缩小。

性能差距缩小,信心正在建立。

尽管与英伟达的顶级产品相比,国产GPU在算力和能耗比上仍存在显著差距,但这一差距已经不再“无法逾越”。尤其是在推理、边缘计算和部分垂直场景中,国产GPU的表现已经达到“可用”的水平。

更重要的是,国产GPU在自主设计上的突破,为未来的进一步追赶奠定了坚实基础。随着技术迭代和市场应用的加速,中国GPU设计能力有望逐步从“追赶”走向“部分超越”。

中国半导体制造,能否支撑高性能GPU生产?

高性能GPU的设计离不开强大的制造支撑,近年来,中国(大陆)的半导体制造能力虽然仍与国际顶尖水平存在一定差距,但在关键技术节点上已取得显著突破。

中芯国际和华虹集团是中国大陆领先的芯片代工企业,它们的技术进展为国产GPU的制造提供了重要保障。中芯国际的14nm工艺已进入量产阶段,且正在快速推进N+1(接近7nm)工艺的研发。华虹集团则在特色工艺上表现突出,其28nm制程具备高可靠性和高良率,特别适合于国产GPU这类对性能和稳定性要求较高的产品。

图片

相比之下,国际领先代工厂如台积电、三星等已实现5nm、3nm量产,这些制程更多用于智能手机SoC和高端CPU。但在GPU领域,先进制程的重要性有所降低。

GPU与手机芯片制造,截然不同的需求曲线。

GPU芯片的制造需求与手机芯片有显著不同,智能手机芯片强调小型化和功耗控制,需要先进的制程工艺,如5nm甚至3nm,以实现高集成度和低能耗。GPU主要应用于数据中心和云计算服务器中,计算性能和并行处理能力是关键,这使得GPU在功耗和尺寸上的要求相对宽松。14nm和7nm制程,完全能够满足主流GPU的性能需求。

这种需求差异意味着GPU的制造“门槛”低于手机芯片,例如,英伟达的上一代A100GPU采用的是7nm工艺,其性能已经可以满足大部分AI模型的训练需求,而国产厂商的旗舰GPU产品在14nm制程下也能达到“可用”水平。对比之下,制造GPU芯片对工艺的要求更可控,进一步降低了生产门槛。

产能需求,小规模生产的制造潜力。

相比智能手机芯片动辄上亿片的年需求量,GPU市场对产能的需求显得更加“友好”。以全球GPU市场为例,2023年英伟达的AI训练GPU出货量约为200万片,而整个高性能GPU市场的规模也不过千万片级别。

国产GPU的目标市场更为集中,例如,壁仞科技和天数智芯瞄准的数据中心和信创领域,每年的出货量需求大致在百万片级别。这种需求规模对于中芯国际和华虹集团现有的产能来说,完全在可控范围内。即使在14nm制程节点上,国产代工厂也有能力快速满足这一需求,并留有进一步扩展的余地。

更重要的是,中国的半导体制造业在产能和技术水平上具备一定的“实用主义”特质,这尤其适用于GPU的生产。一方面,国内代工厂能够快速调动资源,在较短时间内完成中等规模的生产需求;另一方面,GPU的设计本身也有助于制造环节的灵活性。例如,GPU的面积更大且不受封装工艺的高度限制,这使得国内制造商能够在“非最前沿”节点上实现高效生产。

即使对更先进的7nm制程需求,国内通过设备优化和晶圆厂升级也有能力实现量产。以中芯国际的N+1工艺为例,虽然名义上不属于7nm工艺,但其性能指标接近台积电的7nm制程,已经能够满足部分GPU的算力要求。

综合来看,中国半导体制造能力已足以支撑高性能GPU的生产需求。以14nm和7nm制程为基础,国内代工厂完全能够满足百万片级别的GPU年产能需求。相比于智能手机芯片对3nm和5nm工艺的极高依赖,GPU制造对工艺先进性的需求相对“温和”,为中国本土的生产能力提供了更广阔的发挥空间。

未来,随着中芯国际和其他国产代工厂进一步提升技术水平,中国GPU制造产业的核心挑战将从“能否制造”转向“如何扩大规模”。从已有的技术积累和市场需求来看,国产GPU的制造能力已经不再是制约行业发展的明显短板,而是成为一个稳定的支持点,为产业链其他环节提供了坚实的后盾。

政策加把火,帮助国产GPU构建良性循环

国产GPU正在从实验室走向市场,但现实是冷峻的:企业买账了吗?答案并不乐观。尽管国产GPU在技术指标上不断进步,在价格和供货周期上也显示出竞争优势,但用户的信心却远未建立。信任缺失,成为国产GPU市场化的最大软肋。

首先,市场认知的固化让国产GPU陷入“低端化”的刻板印象。长期以来,英伟达等国际巨头凭借强劲的性能和丰富的生态圈,几乎成为GPU行业的代名词。企业用户在选择时,习惯性地将“国际品牌”与“高可靠性”划等号,而国产GPU则被贴上“不成熟”的标签。这种对技术能力的偏见,严重压缩了国产GPU的市场空间。

其次,路径依赖造成了选择惯性。英伟达不仅占据了硬件市场的绝对优势,更通过CUDA生态将自己牢牢嵌入用户的技术栈中。从硬件到软件,从驱动到开发工具链,英伟达已经构建了一整套封闭而高效的生态体系。用户的业务流程、应用模型、优化代码,甚至团队的技术经验,都深度绑定在英伟达之上。切换到国产GPU不仅意味着硬件更换,还涉及高昂的迁移成本和风险。这种“全方位锁定效应”,让国产GPU厂商举步维艰。

在这种情况下,国产GPU能否实现市场化突破,光靠市场还不行,还需要政策的助力。

最近,中国政府对英伟达展开反垄断调查,同时多个行业协会发声警告美国产品的不可靠性。这些动作不仅是对国际供应链不稳定的应对,也是为国产GPU发展创造市场空间的战略布局。通过政策干预,削弱外资品牌的市场支配力,能为国产GPU提供“试验窗口”。

但需要指出的是,仅靠政策推力还不够。政策可以创造机会,却无法替代产品本身的竞争力。过度依赖政策保护,不仅无法建立用户信任,还可能削弱国产厂商在技术竞争中的动力。

真正让国产GPU“跑起来”的关键,在于通过市场应用形成技术和资金的良性循环。GPU的技术迭代高度依赖实际使用场景的反馈。只有让产品走向市场,才能发现问题、改进性能,形成“应用优化迭代”的正向循环。

在这一过程中,典型场景的突破尤为重要。国产GPU需要抓住一些能够展示其性能和可靠性的代表性场景。比如,景嘉微通过在军工、工业控制领域的稳定表现,逐渐积累了用户信任;天数智芯则在数据中心和AI推理领域证明了其性价比优势。这些成功案例不仅提升了产品的市场认知,也为厂商提供了进一步优化的机会。

解决了市场认知问题,接下来还需要打破路径依赖。

而要打破用户对英伟达的路径依赖,国产GPU厂商必须在技术支持、应用适配和生态建设三个层面发力,逐步瓦解英伟达的优势壁垒。

第一步:技术支持,解决用户的迁移顾虑

用户对国产GPU最大的担忧在于使用风险。迁移意味着现有模型的重新优化、工具链的适配,甚至可能导致业务中断。国产厂商需要建立强大的技术支持体系,从底层驱动到应用调优,提供一站式的迁移解决方案。通过降低切换成本和风险,让用户愿意尝试国产方案。

第二步:应用适配,用实际场景证明实力

企业用户选择GPU的核心标准是“能否高效完成现有任务”。国产厂商必须在应用适配上大做文章,通过兼容主流AI框架(如TensorFlow、PyTorch)和优化关键算法场景,确保国产GPU可以无缝接入用户的业务流程。只有在实际场景中表现稳定,用户信任才能逐步建立。

第三步:生态建设,摆脱硬件的单点竞争

英伟达最大的护城河不是硬件,而是其深厚的生态系统。CUDA生态几乎成为行业开发者的默认语言,绑定了整个技术链条。国产GPU要实现突破,必须在生态建设上投入更多资源。这不仅包括软件工具的开发,还需要通过与国内AI框架(如飞桨、MindSpore)合作,构建开放而多元的国产GPU生态。

国产GPU的市场化不只是一次技术竞赛,更是一场信任的战役。政策可以提供一时的助推力,但无法真正改变用户的选择习惯。只有通过应用场景的突破、技术支持的完善和生态系统的构建,国产GPU才能从“替代性产品”转型为“可信赖的选择”。

未来的竞争不仅是GPU性能的较量,更是生态的比拼。国产厂商需要认识到,用户选择GPU并不仅仅因为它“好用”,而是因为它“值得信任”。而这种信任的建立,绝非一朝一夕之功,而是一场漫长而深刻的市场教育与技术迭代之旅。

CUDA,是摆在国产GPU面前最大的拦路虎

前面,我们分析了国产GPU崛起的可能性。不要高兴得太早,接下来,我们就来分析一下其中的障碍和问题。首先,我们来看看最广为人知的CUDA。

英伟达在GPU领域的主导地位,不仅来源于其硬件性能的强悍,更因为它构筑了一个牢不可破的生态护城河——CUDA。这一软件开发框架,堪称英伟达的“杀手级武器”,锁定了从开发者到企业用户的全产业链。

CUDA的“全覆盖”能力是英伟达生态的核心,通过提供从底层驱动到高层应用库的全面支持,CUDA几乎成为GPU编程的行业标准。在AI领域,CUDA的优化使得开发者可以轻松调用英伟达GPU的强大算力,完成从图像处理到深度学习的各种任务。无论是训练大模型还是进行实时推理,CUDA都提供了无与伦比的工具链支持。

即便是国际巨头如AMD和英特尔,也难以撼动CUDA的生态地位。AMD曾推出的ROCm(Radeon Open Compute)在性能上虽能与CUDA抗衡,但由于生态不完善,始终未能形成气候。英特尔推出的oneAPI尝试通过跨平台工具整合资源,但在开发者支持上依然远逊于CUDA。这表明,生态护城河不仅是技术较量,更是时间积累和开发者信任的结果。

对于国产GPU而言,这道护城河更显深不可测。在硬件性能和制造能力逐渐接近国际水准的今天,应用生态的差距成为国产GPU崛起的最大障碍。

相比英伟达几十年的积累,国产GPU在生态建设上几乎是“白纸起步”。尽管近年来国内企业在生态系统上有所布局,但总体来看,软件开发工具的缺乏、开发者社区的薄弱以及行业标准的滞后,严重制约了国产GPU的市场化进程。

这具体表现在以下几个方面:

1. 工具链和算法库的缺失

国产GPU虽然在硬件性能上逐渐追赶国际巨头,但软件工具链的匮乏让开发者“无从下手”。英伟达的CUDA生态提供了几乎所有主流算法的优化库,开发者可以即插即用。而国产GPU大多仅提供基础的驱动支持,甚至需要开发者自行编写底层接口,使用门槛高、效率低。

2. 开发者社区的缺位

开发者是生态系统的“生命线”,英伟达通过CUDA积累了数百万开发者,这些开发者不仅使用其产品,更通过开源社区贡献代码,反哺生态成长。而国产GPU在开发者社区的建设上尚属起步阶段,缺乏足够的用户规模和技术贡献。

3. 行业标准和应用适配的滞后

在国际市场上,英伟达已经通过CUDA影响了AI、图形渲染和高性能计算等多个行业的标准,而国产GPU仍缺乏类似的行业话语权。这导致许多主流应用对国产GPU的支持不足,进一步加剧了生态劣势。

那么,要如何跨越CUDA的“护城河”呢?

打破英伟达的生态垄断,已经成为国产GPU能否崛起的关键战役。不得不说,要打赢这一仗,难度非常之大,而且失败的可能性很大。但是,成事在天,谋事在人,要想实现这个目标,可以从以下几个方面着手:

1. 依托开源,构建国产GPU的基础生态

开源是国产GPU弯道超车的最佳路径之一,通过与开源社区合作,国产GPU可以快速积累工具链和算法库的支持。例如,国内主流AI框架如飞桨(Paddle Paddle)和MindSpore,已经在部分国产GPU上完成适配。这种依托开源平台的方式,不仅可以降低生态建设成本,还能通过社区贡献加速技术迭代。

2. 标准化与互通性,降低开发者迁移成本

国产GPU需要制定开放的行业标准,推动与主流AI框架和开发工具的无缝兼容。类似CUDA的封闭生态,尽管强大,却容易引发开发者的反感。国产GPU如果能够通过标准化实现与TensorFlow、PyTorch等主流框架的兼容性,将有助于吸引更多开发者尝试,并逐步转化为忠实用户。

3. 跨行业协同,形成产业合力

国产GPU厂商需要联合产业链上下游,构建协同发展的生态体系。通过与国内的AI应用开发商、科研机构和云服务商合作,推动更多垂直行业采用国产GPU。这种自上而下的市场引导,可以有效带动开发者群体的扩展。

可以说,国产GPU在性能和制造能力上的追赶已经初见成效,但生态建设仍是“最后一公里”。这不仅是技术挑战,更是时间和信任的积累过程。英伟达通过CUDA建立的护城河,成为全球GPU市场的“通行证”,而国产GPU要想真正与之竞争,必须在应用生态的广度和深度上实现突围。

未来,国产GPU的成功不仅取决于硬件性能的迭代,更依赖于能否构建一个开放、多元、可持续发展的应用生态。只有突破这道护城河,国产GPU才能真正站上全球竞争的舞台,而这场“生态之战”,才刚刚开始。

除了CUDA,还有哪些“大山”要攀登

需要指出的是,支撑英伟达3万亿美元市值的,可不仅仅是CUDA,他还有很多“绝招”。国产GPU即使想在中国市场实现对英伟达的替换,也必须在这些“招式”上取得成效。

英伟达的优势在于一个全方位的技术体系,从高带宽内存到高性能互联,从一体化数据中心解决方案到规模化GPU集群的部署,每一个环节都构成了其不可忽视的壁垒。要实现全面替代,国产GPU必须逐一击破这些核心障碍。

1.HBM(高带宽内存):数据吞吐的极限挑战

在AI训练和科学计算中,GPU的性能不仅取决于算力,更受制于数据吞吐能力。英伟达通过HBM(高带宽内存)技术实现了超高的数据带宽,其最新的H100GPU搭载HBM3内存,带宽高达3TB/s。这一指标对于处理大规模训练数据、加速模型收敛至关重要。

目前,国产GPU大多仍采用传统的GDDR显存。虽然GDDR在中低端应用中尚可一战,但面对高强度AI训练场景,内存带宽成为最大的性能瓶颈。此外,HBM技术由少数国际存储厂商垄断,国产替代还处于研发初期。

国产GPU厂商需要加速与本土存储企业(如长江存储、兆易创新)的合作,推动HBM技术的国产化进程。同时,在设计中优化片上缓存(如SRAM)以提升数据处理效率,弥补短期内HBM不足的劣势。

2.高性能互联技术:多卡协同的关键难题

AI模型的规模正在不断扩大,从数亿参数扩展到千亿甚至万亿级别。这种规模下,单卡性能已无法满足计算需求,多GPU协同成为主流解决方案。英伟达的NVLink技术通过高带宽、低延迟的互联方式,将多块GPU整合为统一的计算资源,其在大规模集群中的表现尤为出色。

国产GPU在多卡协同方面的能力相对较弱,目前尚无可与NVLink匹敌的高效互联技术。多卡通信带宽不足、延迟过高的问题,直接制约了国产GPU在大规模AI训练任务中的应用。

国产GPU需要研发自主的高性能互联技术,支持多卡间的高速数据交换,同时优化GPU与CPU之间的通信效率。与国内CPU厂商(如飞腾、海光)合作,构建兼容性强的异构计算架构,是实现这一目标的关键。

3.数据中心解决方案:大规模GPU集群的挑战

英伟达的成功不仅在于硬件,更在于其对数据中心解决方案的深刻理解。其DGX系列产品将GPU、存储、网络与软件整合为一体化系统,可直接部署到数据中心,为企业提供即插即用的AI计算能力。然而,真正的核心优势在于大规模GPU集群的构建能力,尤其是在万卡级别甚至10万卡级别的智算中心部署中,英伟达展现了无可比拟的优势。

英伟达通过其DGX SuperPOD方案,整合多达数千甚至上万块GPU,并通过NVSwitch和InfiniBand网络实现全互联。其分布式存储系统与优化软件栈(如CUDA集群管理工具)高度协同,能够实现高效的数据调度和算力分配。这种集群部署能力,已经成为支持超大规模AI模型(如GPT-4)训练的基础设施。

例如,让马斯克出尽风头的10万GPU的超算中心,正是得益于英伟达的支持。

图片

国产GPU目前在集群方案的完整性上差距明显,虽然单卡性能逐步接近英伟达,但在万卡级别的分布式部署中,缺乏成熟的硬件架构和软件支持。例如,多卡互联方案不够高效,集群管理工具不完善,导致算力利用率低、任务分配效率不足。

国产GPU厂商需要引入片上交换网络(如NVSwitch替代方案)和高性能互联协议,支持GPU之间的低延迟通信。同时,与国内存储厂商合作,构建高性能分布式存储解决方案,解决海量数据的读写瓶颈。

同时,国产GPU厂商需要借鉴英伟达的CUDA生态,开发集群调度和负载均衡工具,支持任务分解、数据分发和算力动态调整,并与国内云服务商(如阿里云、腾讯云)合作,提供大规模集群的全栈解决方案。

更进一步,国产GPU厂商需要与国内IT基础设施企业联合,建立以国产GPU为核心的智算中心示范项目,为国产GPU在大规模部署中的能力提供背书。

4. GPU虚拟化与多租户支持:云计算的基础设施

英伟达的vGPU技术支持GPU虚拟化,使单块物理GPU可分割为多个虚拟实例,为云计算的多租户管理和资源高效利用提供了可能,这种能力已经成为国内云计算市场的刚需。

国产GPU目前在虚拟化支持方面尚未形成完整的技术栈,云服务商在使用国产GPU时,难以实现灵活的资源分配。这种劣势直接削弱了国产GPU在云计算市场的竞争力。

为了补上这个短板,国产GPU厂商,需要开发GPU虚拟化技术,支持多租户环境中的资源动态分配;优化与云计算平台的适配,确保在阿里云、腾讯云等平台上的无缝部署。同时,还要推动国产GPU在虚拟桌面基础设施(VDI)领域的应用,实现商业化突破。

此外,国产GPU仍需其他方面的努力,比如通过更先进的架构设计和工艺优化,进一步提升性能/功耗比,减少部署成本。

综上,国产GPU正在迎来自己的“跃迁时刻”。从性能到制造,从市场化到生态建设,国产厂商一步步缩小着与国际巨头的差距。然而,与其说这是一场追赶赛,不如说是一场全新的产业博弈。国产GPU不可能依靠简单的模仿超越英伟达,而是必须通过技术突破和生态创新,重新定义行业规则。

真正的挑战不仅在于技术,更在于时间和信任。英伟达用了几十年构建的生态系统,不仅锁住了市场,更锁住了开发者和用户的心。而国产GPU要打破这一桎梏,必须以更加开放的姿态、更敏捷的迭代能力,在关键领域中找到自己的独特定位。市场不会因为国产化的情怀而买单,用户只会因为性能、成本和体验的压倒性优势而选择。

但更重要的是,国产GPU的崛起并不仅仅是一个行业的成功,而是关乎中国科技自主的全局性课题。从芯片设计到制造工艺,从应用生态到市场信任,每一步突破都意味着中国科技产业链更加坚韧的一环。这是一场持久战,也是一场决心之战。

在未来,国产GPU能否打破英伟达的霸权,关键不在于复制对手的成功,而在于创造属于自己的道路。或许,用不了多久,当我们提到全球最强算力时,国产GPU也能自信地说一句:“我们,没有辜负这个时代的馈赠,没有辜负这个国家的期待。”

《破阵子·国产GPU突围》

踏破封锁山海,锐意敢争天下。

算力千军压英霸,芯片峰巅正逐高,浩然争国宝。

铁壁何惧深掣,护城且看催化。

万卡星火联智算,锦绣长河展苍穹,剑啸乾坤下。