拿英伟达“开刀”，是中国GPU自主化的一步险棋！

数据猿

2024-12-10 17:59发布于内蒙古数据猿官方账号

近日，中国科技领域接连发生两件大事：

12月3日，包括中国半导体行业协会在内的多个权威行业组织，罕见地发布公告，警告美国芯片产品的安全性和供应稳定性问题，建议国内企业在采购时保持高度警惕；

12月9日，中国市场监管总局宣布，对全球GPU巨头英伟达展开反垄断调查。

这两件看似独立的事件，却隐隐透出一条清晰的主线：在全球芯片供应链受限、中美科技竞争加剧的背景下，中国正有意减少对美国产芯片的依赖，特别是对英伟达GPU产品的高度依赖。

英伟达，毫无疑问是全球AI计算领域的王者。在AI模型的训练与推理中，GPU是核心算力的提供者，而英伟达的GPU市占率超过90%，几乎在AI训练市场占据垄断地位。无论是ChatGPT这样的超大规模语言模型，还是自动驾驶、图像识别等前沿应用，背后都有英伟达的身影。

不仅如此，英伟达的霸权不止于硬件。其自主开发的CUDA生态，早已成为AI开发者的“操作系统”，从底层硬件到上层算法工具一应俱全。可以说，英伟达不仅掌握了硬件性能的高地，还牢牢控制了开发者生态的护城河。

然而，这样一家巨头，也成为中国“卡脖子”技术的象征。

目前，中国正处于AI大模型发展的关键时期。训练大模型需要海量数据、复杂算法，更需要强大的算力支撑。作为支撑AI发展的“底座”，GPU的短缺和技术封锁直接决定了中国AI产业的上限。

但摆在面前的，是一对矛盾：一方面，中国需要大规模的GPU支持来推动AI行业的发展；另一方面，美国的技术封锁让中国对英伟达等美国产品的依赖变得极其脆弱。

在这种背景下，中国的两大动作——行业协会警告和反垄断调查——不禁让人联想：中国是否已经准备好对英伟达“开刀”？更重要的是，国产GPU是否已经有能力接过这一重任，承担起支撑中国AI发展的任务？

如果答案是否定的，那么此举可能会对中国AI产业带来短期阵痛；如果答案是肯定的，那或许意味着国产GPU已经迎来属于自己的“拐点时刻”。

某种程度上，这是一场关于技术自立的“豪赌”。

国产GPU能否在这一轮科技竞赛中破局，关乎的不仅是AI产业的发展，更是中国在全球科技版图中的未来地位。

设计领域，国产GPU是否已经准备好？

中国的GPU产业尽管起步较晚，但近年来，以华为昇腾、壁仞科技、寒武纪、景嘉微和摩尔线程为代表的一批企业正在迎头追赶。这些企业通过自主研发和技术创新，在设计能力上取得了长足进步，逐渐缩小与国际巨头的差距。

华为昇腾：AI算力的领军者

华为的昇腾系列芯片定位于AI计算领域，其高性能计算能力使其在训练与推理任务中表现优异。以昇腾910为例，这款AI芯片在浮点运算性能（FLOPS）方面达到256TFLOPS，已经能够支持主流大模型的训练需求。此外，昇腾的“MindSpore”生态进一步丰富了其应用场景，为国产GPU生态奠定了基础。

壁仞科技：冲击算力高地的“黑马”

壁仞科技近年来凭借其BR100芯片成为行业焦点，据悉，BR100是全球首款采用Chiplet设计的大算力通用GPU，在AI训练与推理、科学计算等场景中展现了强大潜力。这标志着中国在GPU芯片架构设计上迈出了重要一步，开始具备与国际先进设计理念抗衡的能力。

寒武纪：推理与边缘计算的稳健选手

专注AI芯片的寒武纪，通过MLU系列产品（如MLU290、MLU370），逐步占据国内AI推理市场的高地。其芯片不仅在深度学习推理中表现稳定，还广泛应用于智能驾驶、医疗影像等垂直领域，展现了灵活性和适应性。

景嘉微：嵌入式GPU的多元玩家

景嘉微以嵌入式GPU起家，其产品广泛应用于航空航天、工业控制等特殊场景。这种聚焦细分领域的策略，让其在“短板领域”填补了市场空白。

摩尔线程：瞄准图形计算的先锋者

摩尔线程是国内为数不多专注于图形计算领域的GPU企业，其自研的MUSA（摩尔线程统一系统架构）让人眼前一亮。针对渲染、视频编解码等场景，摩尔线程逐步完善产品布局，成为国内图形计算的重要补充。

国产GPU与英伟达的性能较量，差距还有多远？

虽然国产GPU设计能力在近年来取得了显著突破，但与英伟达这样的国际巨头相比，依然存在差距。英伟达的H100、A100系列GPU，目前仍是全球AI计算领域的顶级产品。

国产GPU与英伟达的差距，体现在多个方面，例如：英伟达H100基于5nm Hopper架构，支持HBM3内存，单卡算力超过1000TFLOPS，而国产GPU在多项参数上仍逊色于英伟达；在能耗比和散热设计等方面，国产GPU与英伟达的产品仍有一定距离。

另一方面，国产GPU在推理任务和边缘计算场景中，已经表现出接近甚至媲美英伟达的能力。例如寒武纪的MLU系列和壁仞的BR100，在推理性能上可以替代部分英伟达的中高端产品。此外，由于美国对华出口管控政策的限制，中国能够获得的英伟达芯片往往是“阉割版”，如A800（A100的降级版）。在这种情况下，国产GPU的性能差距进一步缩小。

性能差距缩小，信心正在建立。

尽管与英伟达的顶级产品相比，国产GPU在算力和能耗比上仍存在显著差距，但这一差距已经不再“无法逾越”。尤其是在推理、边缘计算和部分垂直场景中，国产GPU的表现已经达到“可用”的水平。

更重要的是，国产GPU在自主设计上的突破，为未来的进一步追赶奠定了坚实基础。随着技术迭代和市场应用的加速，中国GPU设计能力有望逐步从“追赶”走向“部分超越”。

中国半导体制造，能否支撑高性能GPU生产？

高性能GPU的设计离不开强大的制造支撑，近年来，中国（大陆）的半导体制造能力虽然仍与国际顶尖水平存在一定差距，但在关键技术节点上已取得显著突破。

中芯国际和华虹集团是中国大陆领先的芯片代工企业，它们的技术进展为国产GPU的制造提供了重要保障。中芯国际的14nm工艺已进入量产阶段，且正在快速推进N+1（接近7nm）工艺的研发。华虹集团则在特色工艺上表现突出，其28nm制程具备高可靠性和高良率，特别适合于国产GPU这类对性能和稳定性要求较高的产品。

相比之下，国际领先代工厂如台积电、三星等已实现5nm、3nm量产，这些制程更多用于智能手机SoC和高端CPU。但在GPU领域，先进制程的重要性有所降低。

GPU与手机芯片制造，截然不同的需求曲线。

GPU芯片的制造需求与手机芯片有显著不同，智能手机芯片强调小型化和功耗控制，需要先进的制程工艺，如5nm甚至3nm，以实现高集成度和低能耗。GPU主要应用于数据中心和云计算服务器中，计算性能和并行处理能力是关键，这使得GPU在功耗和尺寸上的要求相对宽松。14nm和7nm制程，完全能够满足主流GPU的性能需求。

这种需求差异意味着GPU的制造“门槛”低于手机芯片，例如，英伟达的上一代A100GPU采用的是7nm工艺，其性能已经可以满足大部分AI模型的训练需求，而国产厂商的旗舰GPU产品在14nm制程下也能达到“可用”水平。对比之下，制造GPU芯片对工艺的要求更可控，进一步降低了生产门槛。

产能需求，小规模生产的制造潜力。

相比智能手机芯片动辄上亿片的年需求量，GPU市场对产能的需求显得更加“友好”。以全球GPU市场为例，2023年英伟达的AI训练GPU出货量约为200万片，而整个高性能GPU市场的规模也不过千万片级别。

国产GPU的目标市场更为集中，例如，壁仞科技和天数智芯瞄准的数据中心和信创领域，每年的出货量需求大致在百万片级别。这种需求规模对于中芯国际和华虹集团现有的产能来说，完全在可控范围内。即使在14nm制程节点上，国产代工厂也有能力快速满足这一需求，并留有进一步扩展的余地。

更重要的是，中国的半导体制造业在产能和技术水平上具备一定的“实用主义”特质，这尤其适用于GPU的生产。一方面，国内代工厂能够快速调动资源，在较短时间内完成中等规模的生产需求；另一方面，GPU的设计本身也有助于制造环节的灵活性。例如，GPU的面积更大且不受封装工艺的高度限制，这使得国内制造商能够在“非最前沿”节点上实现高效生产。

即使对更先进的7nm制程需求，国内通过设备优化和晶圆厂升级也有能力实现量产。以中芯国际的N+1工艺为例，虽然名义上不属于7nm工艺，但其性能指标接近台积电的7nm制程，已经能够满足部分GPU的算力要求。

综合来看，中国半导体制造能力已足以支撑高性能GPU的生产需求。以14nm和7nm制程为基础，国内代工厂完全能够满足百万片级别的GPU年产能需求。相比于智能手机芯片对3nm和5nm工艺的极高依赖，GPU制造对工艺先进性的需求相对“温和”，为中国本土的生产能力提供了更广阔的发挥空间。

未来，随着中芯国际和其他国产代工厂进一步提升技术水平，中国GPU制造产业的核心挑战将从“能否制造”转向“如何扩大规模”。从已有的技术积累和市场需求来看，国产GPU的制造能力已经不再是制约行业发展的明显短板，而是成为一个稳定的支持点，为产业链其他环节提供了坚实的后盾。

政策加把火，帮助国产GPU构建良性循环

国产GPU正在从实验室走向市场，但现实是冷峻的：企业买账了吗？答案并不乐观。尽管国产GPU在技术指标上不断进步，在价格和供货周期上也显示出竞争优势，但用户的信心却远未建立。信任缺失，成为国产GPU市场化的最大软肋。

首先，市场认知的固化让国产GPU陷入“低端化”的刻板印象。长期以来，英伟达等国际巨头凭借强劲的性能和丰富的生态圈，几乎成为GPU行业的代名词。企业用户在选择时，习惯性地将“国际品牌”与“高可靠性”划等号，而国产GPU则被贴上“不成熟”的标签。这种对技术能力的偏见，严重压缩了国产GPU的市场空间。

其次，路径依赖造成了选择惯性。英伟达不仅占据了硬件市场的绝对优势，更通过CUDA生态将自己牢牢嵌入用户的技术栈中。从硬件到软件，从驱动到开发工具链，英伟达已经构建了一整套封闭而高效的生态体系。用户的业务流程、应用模型、优化代码，甚至团队的技术经验，都深度绑定在英伟达之上。切换到国产GPU不仅意味着硬件更换，还涉及高昂的迁移成本和风险。这种“全方位锁定效应”，让国产GPU厂商举步维艰。

在这种情况下，国产GPU能否实现市场化突破，光靠市场还不行，还需要政策的助力。

最近，中国政府对英伟达展开反垄断调查，同时多个行业协会发声警告美国产品的不可靠性。这些动作不仅是对国际供应链不稳定的应对，也是为国产GPU发展创造市场空间的战略布局。通过政策干预，削弱外资品牌的市场支配力，能为国产GPU提供“试验窗口”。

但需要指出的是，仅靠政策推力还不够。政策可以创造机会，却无法替代产品本身的竞争力。过度依赖政策保护，不仅无法建立用户信任，还可能削弱国产厂商在技术竞争中的动力。

真正让国产GPU“跑起来”的关键，在于通过市场应用形成技术和资金的良性循环。GPU的技术迭代高度依赖实际使用场景的反馈。只有让产品走向市场，才能发现问题、改进性能，形成“应用优化迭代”的正向循环。

在这一过程中，典型场景的突破尤为重要。国产GPU需要抓住一些能够展示其性能和可靠性的代表性场景。比如，景嘉微通过在军工、工业控制领域的稳定表现，逐渐积累了用户信任；天数智芯则在数据中心和AI推理领域证明了其性价比优势。这些成功案例不仅提升了产品的市场认知，也为厂商提供了进一步优化的机会。

解决了市场认知问题，接下来还需要打破路径依赖。

而要打破用户对英伟达的路径依赖，国产GPU厂商必须在技术支持、应用适配和生态建设三个层面发力，逐步瓦解英伟达的优势壁垒。

第一步：技术支持，解决用户的迁移顾虑

用户对国产GPU最大的担忧在于使用风险。迁移意味着现有模型的重新优化、工具链的适配，甚至可能导致业务中断。国产厂商需要建立强大的技术支持体系，从底层驱动到应用调优，提供一站式的迁移解决方案。通过降低切换成本和风险，让用户愿意尝试国产方案。

第二步：应用适配，用实际场景证明实力

企业用户选择GPU的核心标准是“能否高效完成现有任务”。国产厂商必须在应用适配上大做文章，通过兼容主流AI框架（如TensorFlow、PyTorch）和优化关键算法场景，确保国产GPU可以无缝接入用户的业务流程。只有在实际场景中表现稳定，用户信任才能逐步建立。

第三步：生态建设，摆脱硬件的单点竞争

英伟达最大的护城河不是硬件，而是其深厚的生态系统。CUDA生态几乎成为行业开发者的默认语言，绑定了整个技术链条。国产GPU要实现突破，必须在生态建设上投入更多资源。这不仅包括软件工具的开发，还需要通过与国内AI框架（如飞桨、MindSpore）合作，构建开放而多元的国产GPU生态。

国产GPU的市场化不只是一次技术竞赛，更是一场信任的战役。政策可以提供一时的助推力，但无法真正改变用户的选择习惯。只有通过应用场景的突破、技术支持的完善和生态系统的构建，国产GPU才能从“替代性产品”转型为“可信赖的选择”。

未来的竞争不仅是GPU性能的较量，更是生态的比拼。国产厂商需要认识到，用户选择GPU并不仅仅因为它“好用”，而是因为它“值得信任”。而这种信任的建立，绝非一朝一夕之功，而是一场漫长而深刻的市场教育与技术迭代之旅。

CUDA，是摆在国产GPU面前最大的拦路虎

前面，我们分析了国产GPU崛起的可能性。不要高兴得太早，接下来，我们就来分析一下其中的障碍和问题。首先，我们来看看最广为人知的CUDA。

英伟达在GPU领域的主导地位，不仅来源于其硬件性能的强悍，更因为它构筑了一个牢不可破的生态护城河——CUDA。这一软件开发框架，堪称英伟达的“杀手级武器”，锁定了从开发者到企业用户的全产业链。

CUDA的“全覆盖”能力是英伟达生态的核心，通过提供从底层驱动到高层应用库的全面支持，CUDA几乎成为GPU编程的行业标准。在AI领域，CUDA的优化使得开发者可以轻松调用英伟达GPU的强大算力，完成从图像处理到深度学习的各种任务。无论是训练大模型还是进行实时推理，CUDA都提供了无与伦比的工具链支持。

即便是国际巨头如AMD和英特尔，也难以撼动CUDA的生态地位。AMD曾推出的ROCm（Radeon Open Compute）在性能上虽能与CUDA抗衡，但由于生态不完善，始终未能形成气候。英特尔推出的oneAPI尝试通过跨平台工具整合资源，但在开发者支持上依然远逊于CUDA。这表明，生态护城河不仅是技术较量，更是时间积累和开发者信任的结果。

对于国产GPU而言，这道护城河更显深不可测。在硬件性能和制造能力逐渐接近国际水准的今天，应用生态的差距成为国产GPU崛起的最大障碍。

相比英伟达几十年的积累，国产GPU在生态建设上几乎是“白纸起步”。尽管近年来国内企业在生态系统上有所布局，但总体来看，软件开发工具的缺乏、开发者社区的薄弱以及行业标准的滞后，严重制约了国产GPU的市场化进程。

这具体表现在以下几个方面：

1. 工具链和算法库的缺失

国产GPU虽然在硬件性能上逐渐追赶国际巨头，但软件工具链的匮乏让开发者“无从下手”。英伟达的CUDA生态提供了几乎所有主流算法的优化库，开发者可以即插即用。而国产GPU大多仅提供基础的驱动支持，甚至需要开发者自行编写底层接口，使用门槛高、效率低。

2. 开发者社区的缺位

开发者是生态系统的“生命线”，英伟达通过CUDA积累了数百万开发者，这些开发者不仅使用其产品，更通过开源社区贡献代码，反哺生态成长。而国产GPU在开发者社区的建设上尚属起步阶段，缺乏足够的用户规模和技术贡献。

3. 行业标准和应用适配的滞后

在国际市场上，英伟达已经通过CUDA影响了AI、图形渲染和高性能计算等多个行业的标准，而国产GPU仍缺乏类似的行业话语权。这导致许多主流应用对国产GPU的支持不足，进一步加剧了生态劣势。

那么，要如何跨越CUDA的“护城河”呢？

打破英伟达的生态垄断，已经成为国产GPU能否崛起的关键战役。不得不说，要打赢这一仗，难度非常之大，而且失败的可能性很大。但是，成事在天，谋事在人，要想实现这个目标，可以从以下几个方面着手：

1. 依托开源，构建国产GPU的基础生态

开源是国产GPU弯道超车的最佳路径之一，通过与开源社区合作，国产GPU可以快速积累工具链和算法库的支持。例如，国内主流AI框架如飞桨（Paddle Paddle）和MindSpore，已经在部分国产GPU上完成适配。这种依托开源平台的方式，不仅可以降低生态建设成本，还能通过社区贡献加速技术迭代。

2. 标准化与互通性，降低开发者迁移成本

国产GPU需要制定开放的行业标准，推动与主流AI框架和开发工具的无缝兼容。类似CUDA的封闭生态，尽管强大，却容易引发开发者的反感。国产GPU如果能够通过标准化实现与TensorFlow、PyTorch等主流框架的兼容性，将有助于吸引更多开发者尝试，并逐步转化为忠实用户。

3. 跨行业协同，形成产业合力

国产GPU厂商需要联合产业链上下游，构建协同发展的生态体系。通过与国内的AI应用开发商、科研机构和云服务商合作，推动更多垂直行业采用国产GPU。这种自上而下的市场引导，可以有效带动开发者群体的扩展。

可以说，国产GPU在性能和制造能力上的追赶已经初见成效，但生态建设仍是“最后一公里”。这不仅是技术挑战，更是时间和信任的积累过程。英伟达通过CUDA建立的护城河，成为全球GPU市场的“通行证”，而国产GPU要想真正与之竞争，必须在应用生态的广度和深度上实现突围。

未来，国产GPU的成功不仅取决于硬件性能的迭代，更依赖于能否构建一个开放、多元、可持续发展的应用生态。只有突破这道护城河，国产GPU才能真正站上全球竞争的舞台，而这场“生态之战”，才刚刚开始。

除了CUDA，还有哪些“大山”要攀登

需要指出的是，支撑英伟达3万亿美元市值的，可不仅仅是CUDA，他还有很多“绝招”。国产GPU即使想在中国市场实现对英伟达的替换，也必须在这些“招式”上取得成效。

英伟达的优势在于一个全方位的技术体系，从高带宽内存到高性能互联，从一体化数据中心解决方案到规模化GPU集群的部署，每一个环节都构成了其不可忽视的壁垒。要实现全面替代，国产GPU必须逐一击破这些核心障碍。

1.HBM（高带宽内存）：数据吞吐的极限挑战

在AI训练和科学计算中，GPU的性能不仅取决于算力，更受制于数据吞吐能力。英伟达通过HBM（高带宽内存）技术实现了超高的数据带宽，其最新的H100GPU搭载HBM3内存，带宽高达3TB/s。这一指标对于处理大规模训练数据、加速模型收敛至关重要。

目前，国产GPU大多仍采用传统的GDDR显存。虽然GDDR在中低端应用中尚可一战，但面对高强度AI训练场景，内存带宽成为最大的性能瓶颈。此外，HBM技术由少数国际存储厂商垄断，国产替代还处于研发初期。

国产GPU厂商需要加速与本土存储企业（如长江存储、兆易创新）的合作，推动HBM技术的国产化进程。同时，在设计中优化片上缓存（如SRAM）以提升数据处理效率，弥补短期内HBM不足的劣势。

2.高性能互联技术：多卡协同的关键难题

AI模型的规模正在不断扩大，从数亿参数扩展到千亿甚至万亿级别。这种规模下，单卡性能已无法满足计算需求，多GPU协同成为主流解决方案。英伟达的NVLink技术通过高带宽、低延迟的互联方式，将多块GPU整合为统一的计算资源，其在大规模集群中的表现尤为出色。

国产GPU在多卡协同方面的能力相对较弱，目前尚无可与NVLink匹敌的高效互联技术。多卡通信带宽不足、延迟过高的问题，直接制约了国产GPU在大规模AI训练任务中的应用。

国产GPU需要研发自主的高性能互联技术，支持多卡间的高速数据交换，同时优化GPU与CPU之间的通信效率。与国内CPU厂商（如飞腾、海光）合作，构建兼容性强的异构计算架构，是实现这一目标的关键。

3.数据中心解决方案：大规模GPU集群的挑战

英伟达的成功不仅在于硬件，更在于其对数据中心解决方案的深刻理解。其DGX系列产品将GPU、存储、网络与软件整合为一体化系统，可直接部署到数据中心，为企业提供即插即用的AI计算能力。然而，真正的核心优势在于大规模GPU集群的构建能力，尤其是在万卡级别甚至10万卡级别的智算中心部署中，英伟达展现了无可比拟的优势。

英伟达通过其DGX SuperPOD方案，整合多达数千甚至上万块GPU，并通过NVSwitch和InfiniBand网络实现全互联。其分布式存储系统与优化软件栈（如CUDA集群管理工具）高度协同，能够实现高效的数据调度和算力分配。这种集群部署能力，已经成为支持超大规模AI模型（如GPT-4）训练的基础设施。

例如，让马斯克出尽风头的10万GPU的超算中心，正是得益于英伟达的支持。

国产GPU目前在集群方案的完整性上差距明显，虽然单卡性能逐步接近英伟达，但在万卡级别的分布式部署中，缺乏成熟的硬件架构和软件支持。例如，多卡互联方案不够高效，集群管理工具不完善，导致算力利用率低、任务分配效率不足。

国产GPU厂商需要引入片上交换网络（如NVSwitch替代方案）和高性能互联协议，支持GPU之间的低延迟通信。同时，与国内存储厂商合作，构建高性能分布式存储解决方案，解决海量数据的读写瓶颈。

同时，国产GPU厂商需要借鉴英伟达的CUDA生态，开发集群调度和负载均衡工具，支持任务分解、数据分发和算力动态调整，并与国内云服务商（如阿里云、腾讯云）合作，提供大规模集群的全栈解决方案。

更进一步，国产GPU厂商需要与国内IT基础设施企业联合，建立以国产GPU为核心的智算中心示范项目，为国产GPU在大规模部署中的能力提供背书。

4. GPU虚拟化与多租户支持：云计算的基础设施

英伟达的vGPU技术支持GPU虚拟化，使单块物理GPU可分割为多个虚拟实例，为云计算的多租户管理和资源高效利用提供了可能，这种能力已经成为国内云计算市场的刚需。

国产GPU目前在虚拟化支持方面尚未形成完整的技术栈，云服务商在使用国产GPU时，难以实现灵活的资源分配。这种劣势直接削弱了国产GPU在云计算市场的竞争力。

为了补上这个短板，国产GPU厂商，需要开发GPU虚拟化技术，支持多租户环境中的资源动态分配；优化与云计算平台的适配，确保在阿里云、腾讯云等平台上的无缝部署。同时，还要推动国产GPU在虚拟桌面基础设施（VDI）领域的应用，实现商业化突破。

此外，国产GPU仍需其他方面的努力，比如通过更先进的架构设计和工艺优化，进一步提升性能/功耗比，减少部署成本。

综上，国产GPU正在迎来自己的“跃迁时刻”。从性能到制造，从市场化到生态建设，国产厂商一步步缩小着与国际巨头的差距。然而，与其说这是一场追赶赛，不如说是一场全新的产业博弈。国产GPU不可能依靠简单的模仿超越英伟达，而是必须通过技术突破和生态创新，重新定义行业规则。

真正的挑战不仅在于技术，更在于时间和信任。英伟达用了几十年构建的生态系统，不仅锁住了市场，更锁住了开发者和用户的心。而国产GPU要打破这一桎梏，必须以更加开放的姿态、更敏捷的迭代能力，在关键领域中找到自己的独特定位。市场不会因为国产化的情怀而买单，用户只会因为性能、成本和体验的压倒性优势而选择。

但更重要的是，国产GPU的崛起并不仅仅是一个行业的成功，而是关乎中国科技自主的全局性课题。从芯片设计到制造工艺，从应用生态到市场信任，每一步突破都意味着中国科技产业链更加坚韧的一环。这是一场持久战，也是一场决心之战。

在未来，国产GPU能否打破英伟达的霸权，关键不在于复制对手的成功，而在于创造属于自己的道路。或许，用不了多久，当我们提到全球最强算力时，国产GPU也能自信地说一句：“我们，没有辜负这个时代的馈赠，没有辜负这个国家的期待。”

《破阵子·国产GPU突围》

踏破封锁山海，锐意敢争天下。

算力千军压英霸，芯片峰巅正逐高，浩然争国宝。

铁壁何惧深掣，护城且看催化。

万卡星火联智算，锦绣长河展苍穹，剑啸乾坤下。

查看原图 284K