光子盒评测|国产GPU适配主流量子计算框架分析

问AI · 这次适配对国产异构算力生态有何意义?

量子计算的软件生态正在从“能否编写量子线路”走向“能否在真实异构硬件环境中稳定运行”。在量子线路仿真、量子机器学习、变分算法、噪声模拟量子纠错辅助计算等任务中,GPU已经成为量子软件栈的重要经典算力底座。对于国产GPU而言,能否承接Cirq、PennyLane、Qiskit等主流量子计算框架,不只是一次应用适配测试,更关系到国产异构算力能否进入量子计算工作流。


本轮测评由光子盒组织实施,围绕两类国产GPU平台,在清醒异构技术支持下,对三类主流量子计算框架进行阶段性验证。测评覆盖环境部署、基础功能、典型算法、量子机器学习、性能吞吐、长时间稳定性等维度。总体结果显示,在本轮测试范围内,三类框架均完成了基础功能验证,Cirq/qsimPennyLane/lightning、Qiskit Aer等后端在不同场景中体现出不同程度的加速与可用性,48小时稳定性测试未出现影响结论的异常中断。


图片

测评背景:主流量子软件栈正在进入异构算力验证阶段


过去几年,量子计算软件框架的发展重点主要集中在量子线路表达、编译、仿真、算法库和云端调用接口。随着量子硬件仍处于NISQ向早期容错演进的阶段,大量实际工作仍需要经典算力参与,包括大规模线路仿真、参数优化、采样统计、误差缓解、噪声建模、机器学习训练、译码与校准反馈等。量子计算并不是脱离经典计算体系单独运行,而是在相当长一段时间内与CPU、GPU、超算和云平台形成协同。


这使得主流量子计算框架对GPU的依赖不断增强。一方面,GPU可以支撑高性能量子态向量、密度矩阵、张量网络和矩阵乘法计算;另一方面,量子机器学习和变分量子算法需要频繁进行前向计算、梯度计算和参数更新,天然适合与高吞吐并行算力结合。对于国产GPU生态而言,能否适配主流量子计算框架,意味着其能力边界不再局限于通用AI训练或图形计算,而是开始进入科学计算与量子软件栈的核心场景。


当主流量子计算框架能够跨过单一生态约束,与国产GPU完成适配,量子计算的软件栈就不再只是“调用某一类硬件”的问题,而是进入了国产异构算力能否承接前沿科学计算框架的问题。


图片

测评对象:三类主流量子计算框架与两类国产GPU 平台


(一)Cirq:面向线路构建与高性能仿真的开源框架


Cirq是由Google主导的开源量子计算框架,主要面向量子线路构建、NISQ 算法实验、噪声模拟和与特定硬件拓扑相关的线路表达。本轮测评重点关注Cirq基础线路、参数化线路、量子算法、QNN示例以及qsimcirq后端的性能表现。qsimcirq是Cirq生态中常用的高性能C++仿真后端,适合观察同一框架下不同后端的加速差异。


(二)PennyLane:面向可微量子编程与量子机器学习


PennyLane是由加拿大量子计算公司Xanadu主导开发的开源可微量子编程框架,面向量子机器学习、变分量子算法和混合量子—经典计算等典型场景。相比传统量子编程框架,PennyLane更强调与经典机器学习生态的融合,能够将量子线路嵌入PyTorch、TensorFlow、JAX等自动微分框架中,支持参数化量子线路训练、梯度计算和量子神经网络构建。本轮测评围绕PennyLane在国产GPU平台上的适配能力展开,重点考察default.qubit与lightning.qubit等后端在基础功能、梯度计算、优化训练、QML工作流及长时间稳定运行方面的表现。


(三)Qiskit:面向量子计算开发与仿真的综合软件栈


Qiskit是IBM推动的开源量子计算软件栈,覆盖量子线路构建、仿真、编译、算法、噪声模型和云端执行接口等环节。本轮测评重点关注Qiskit Aer在statevector、matrix product state(MPS)、噪声模拟、VQE/QAOA、QML/VQC等任务中的可运行性与性能表现。


(四)两类国产GPU平台:本轮验证与后续扩展


本轮测评覆盖两类国产GPU平台,分别为壁仞科技BR10X平台与天数智芯MR100平台。为便于行文,文中分别简称为BR10X与MR100。需要强调的是,两类平台在硬件配置、测试环境、驱动版本、CUDA/SUPA兼容层、并行策略和框架后端等方面并不完全相同,因此本轮结果主要用于判断国产GPU对主流量子计算框架的承接能力及阶段性表现,不宜直接简化为绝对性能排名。


后续,测评将继续扩展更多国产GPU平台、更多驱动版本、更多量子软件后端和更多典型任务,逐步形成可复现、可比较、可持续迭代的量子软件栈异构算力测评体系。


图片
图片

测试环境与测试维度


本轮测评并非只做“能不能启动”的环境验证,而是按照功能、性能、算法、稳定性等维度组织测试。测试覆盖框架安装、后端调用、线路执行、典型算法收敛、QML训练、吞吐表现和长时间运行等环节

图片
图片
图片
图片

主要测试结果


(一)功能验证:三类框架均完成基础功能链路打通


从功能验证结果看,Cirq、PennyLane、Qiskit在本轮测试范围内均完成基础功能验证。Cirq在两类平台上均完成30项功能用例测试;PennyLane在两类平台上均完成33项功能用例测试;Qiskit在MR100平台完成30项功能用例测试,在BR10X平台完成11项功能用例测试。


这里需要避免一个误读:不同平台上的Qiskit功能测试数量并不完全一致,主要反映测试脚本覆盖范围和适配阶段差异,不应直接解释为某一平台“功能少于另一平台”。严肃表述应为:在各自测试集合内,功能用例均通过,说明基础运行链路已经打通,但后续需要统一测试矩阵,形成更严格的横向对比。


图片

(二)性能测试:不同框架后端呈现差异化加速表现


性能测试结果表明,GPU加速并不是在所有框架、所有任务中线性出现,而是高度依赖后端实现和任务结构。Cirq中qsimcirq相比Cirq默认仿真后端表现出明显加速,在两类平台上均体现出数量级级别的性能提升;PennyLane中lightning后端相较default.qubit在状态向量仿真、梯度计算和QML训练等场景中体现出明显优势;Qiskit Aer在statevector和MPS等不同仿真方法下,对线路类型、深度和比特数的敏感性较强。


在本轮测试范围内,国产GPU平台已能承接主流量子框架的关键仿真后端,并在部分任务中形成明显加速;但不同框架后端之间的性能差异较大,后续需要使用统一脚本、统一版本、统一参数和统一日志,形成可复现实验基线。


图片
图片

量子电路执行消耗随量子比特数变化


图片

综合性能雷达图:壁仞BR10X平台(左);天数智芯MR100平台(右)



(三)算法与QML:从“能运行”走向“能完成完整工作流”


算法测试不仅关注单个量子线路能否执行,更关注完整算法工作流能否闭环。本轮测试中,Cirq侧覆盖了VQE与QNN示例,PennyLane侧覆盖了梯度计算、优化训练与量子机器学习示例,Qiskit侧覆盖了VQE、QAOA、VQC/QML等典型任务。


从测评方视角看,这部分结果比单个性能数字更重要。量子计算框架在实际应用中通常不是孤立运行一个线路,而是反复经历“构建线路—执行仿真—读取结果—更新参数—再次执行”的循环。如果GPU平台只能完成一次性线路执行,而不能稳定支撑参数化优化与QML训练,就难以进入真实应用验证。本轮结果说明,两类国产GPU平台已初步具备承接主流量子算法工作流的基础。


(四)稳定性:48小时连续测试未出现影响结论的异常中断


稳定性测试是本轮测评中需要重点补充的部分。对于严肃测评报告而言,单次运行成功并不足以证明框架适配成熟,长时间连续运行的成功率、异常率、数值稳定性和资源占用变化更能反映工程可用性。


图片

需要注意的是,48小时测试可以证明阶段性稳定性,但还不能等同于生产级稳定性。生产级评价还需要引入多用户并发、任务排队、长周期资源泄露、异常恢复、驱动重启、容器迁移、日志追踪和多节点扩展等测试。


图片

结语


从本轮测评看,在清醒异构技术支持下,国产GPU已经能够承接Cirq、PennyLane、Qiskit等主流量子计算框架的基础运行和典型任务验证,并在部分仿真与QML场景中体现出明确的性能收益。这说明国产异构算力已经具备进入量子软件栈的工程基础。


更重要的是,这次测评给出了一条可继续推进的路径:国产GPU生态不必从零构建封闭的软件体系,而应优先兼容全球主流量子计算框架,围绕量子仿真、量子机器学习、变分算法、噪声模拟、纠错辅助和量超融合工作流,逐步形成可复现、可比较、可扩展的测评体系。


对于光子盒而言,本轮工作不是一次简单的产品测试,而是面向量子软件栈国产化承接能力的一次方法论验证。后续,光子盒将继续从第三方测评视角出发,扩大测试平台和测试场景,推动国产异构算力在量子计算生态中的可验证、可比较和可持续应用。


注:如有需要详细测评报告,后台联系。