看了一些DeepSeek技术方案的解读文章,有一点让人印象深刻:DeepSeek模型竟绕过了CUDA,使用GPU低级汇编语言PTX进行优化。PTX(Parallel Thread Execution)是英伟达GPU中间指令集架构,位于高级GPU编程语言CUDA 和低级机器代码(流处理汇编或SASS)之间。开发复杂,往往被大多数算法工程师忽视。
笔者之前也在大厂的AI部门待过几年。周围同事大多使用谷歌TensorFlow开发AI模型,使用CUDA的都比较少。国内大厂肯定也有工程师能使用PTX等低级汇编语言,但大多不在算法团队。国外大厂的算法工程师有更高性能GPU以及更大规模集群,自然也用不着PTX级别优化。何况早几年NeurlPS(人工智能三大顶会之一)更欣赏有数学的AI模型创新,汇编语言的优化不被视为创新,完全不入顶会法眼。所以大部分算法工程师们也不会去研究PTX优化。
而DeepSeek的母公司幻方,作为中国头部量化公司,在高频策略中用汇编进行优化是很正常的行为。面对有限的GPU算力,用PTX低级汇编语言进行优化是理所当然的技术方案。调试PTX这样低级编程代码,需要极大的毅力、能力的事,DeepSeek算法工程师们太牛了。
对于苦CUDA生态久矣的AMD以及国内的GPU公司必然会抓住这个机会。之前DeepSeek本地部署的文档中就能支持华为昇腾芯片。可以想见华为等国内GPU公司针对DeepSeek训练的硬件升级已在攻克中,毕竟构建CUDA生态难,模仿PTX优化易。
也是国之幸事,早几年A股市养育出了幻方量化。