看了DeepSeek技术方案,有一个技术细节令人印象深刻:DeepSeek模型竟然绕开了CUDA,转而采用GPU低级汇编语言PTX进行优化。
PTX(Parallel Thread Execution)是英伟达GPU的中间指令集架构,它处于高级GPU编程语言CUDA和低级机器代码(流处理汇编或SASS)之间。由于开发难度极高,PTX往往被大多数算法工程师忽视。
作为一名曾在大厂AI部门工作多年的人,深知身边同事大多使用谷歌TensorFlow开发AI模型,真正使用CUDA很少。在国内大厂中,虽然肯定有工程师能够熟练运用PTX等低级汇编语言,但他们大多不在算法团队。而在国外大厂,算法工程师们拥有更高性能的GPU以及更大规模的集群,自然也不需要在PTX级别进行优化。
更何况在早些年,人工智能三大顶会之一的NeurIPS更倾向于欣赏具有数学创新的AI模型,而汇编语言的优化并不被视为创新,完全不在顶会的考虑范围内。因此,大部分算法工程师们也就不愿意去研究PTX优化。
然而,DeepSeek的母公司幻方作为中国头部量化公司,在高频策略中使用汇编进行优化是再正常不过的行为。面对有限的GPU算力,采用PTX低级汇编语言进行优化无疑是理所当然的技术方案。调试PTX这样低级的编程代码,需要极大的毅力和出色的能力,DeepSeek的算法工程师们在这方面展现出的水平令人叹服。
对于长期苦于CUDA生态限制的AMD以及国内的GPU公司来说,这无疑是一个绝佳的机会。事实上,在此前DeepSeek本地部署的文档中,已经明确支持华为昇腾芯片。可以预见的是,华为等国内GPU公司针对DeepSeek训练的硬件升级已经在紧锣密鼓地攻克中。毕竟,构建一个完整的CUDA生态难度极大,而模仿PTX优化则相对容易得多。
这无疑是国之幸事。早在几年前,A股市场养育出了幻方量化。如今,它们在技术上的突破和创新,不仅为自身的发展开辟了新路径,也为国内整个AI行业的生态建设带来了新的希望和机遇。