DeepSeek技术方案只有顶尖量化公司才能想出来

金融领域人工智能探索

2025-02-01 21:32发布于上海

+关注

看了一些DeepSeek技术方案的解读文章，有一点让人印象深刻：DeepSeek模型竟绕过了CUDA,使用GPU低级汇编语言PTX进行优化。PTX（Parallel Thread Execution）是英伟达GPU中间指令集架构，位于高级GPU编程语言CUDA 和低级机器代码（流处理汇编或SASS）之间。开发复杂，往往被大多数算法工程师忽视。

笔者之前也在大厂的AI部门待过几年。周围同事大多使用谷歌TensorFlow开发AI模型，使用CUDA的都比较少。国内大厂肯定也有工程师能使用PTX等低级汇编语言，但大多不在算法团队。国外大厂的算法工程师有更高性能GPU以及更大规模集群，自然也用不着PTX级别优化。何况早几年NeurlPS(人工智能三大顶会之一)更欣赏有数学的AI模型创新，汇编语言的优化不被视为创新，完全不入顶会法眼。所以大部分算法工程师们也不会去研究PTX优化。

而DeepSeek的母公司幻方，作为中国头部量化公司，在高频策略中用汇编进行优化是很正常的行为。面对有限的GPU算力，用PTX低级汇编语言进行优化是理所当然的技术方案。调试PTX这样低级编程代码，需要极大的毅力、能力的事，DeepSeek算法工程师们太牛了。

对于苦CUDA生态久矣的AMD以及国内的GPU公司必然会抓住这个机会。之前DeepSeek本地部署的文档中就能支持华为昇腾芯片。可以想见华为等国内GPU公司针对DeepSeek训练的硬件升级已在攻克中，毕竟构建CUDA生态难，模仿PTX优化易。

也是国之幸事，早几年A股市养育出了幻方量化。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。