客户端
游戏
无障碍

42

评论

107

112

手机看

微信扫一扫,随时随地看

DeepSeek技术方案只有顶尖量化公司才能想出来

看了一些DeepSeek技术方案的解读文章,有一点让人印象深刻:DeepSeek模型竟绕过了CUDA,使用GPU低级汇编语言PTX进行优化。PTX(Parallel Thread Execution)是英伟达GPU中间指令集架构,位于高级GPU编程语言CUDA 和低级机器代码(流处理汇编或SASS)之间。开发复杂,往往被大多数算法工程师忽视。
笔者之前也在大厂的AI部门待过几年。周围同事大多使用谷歌TensorFlow开发AI模型,使用CUDA的都比较少。国内大厂肯定也有工程师能使用PTX等低级汇编语言,但大多不在算法团队。国外大厂的算法工程师有更高性能GPU以及更大规模集群,自然也用不着PTX级别优化。何况早几年NeurlPS(人工智能三大顶会之一)更欣赏有数学的AI模型创新,汇编语言的优化不被视为创新,完全不入顶会法眼。所以大部分算法工程师们也不会去研究PTX优化。
而DeepSeek的母公司幻方,作为中国头部量化公司,在高频策略中用汇编进行优化是很正常的行为。面对有限的GPU算力,用PTX低级汇编语言进行优化是理所当然的技术方案。调试PTX这样低级编程代码,需要极大的毅力、能力的事,DeepSeek算法工程师们太牛了。
对于苦CUDA生态久矣的AMD以及国内的GPU公司必然会抓住这个机会。之前DeepSeek本地部署的文档中就能支持华为昇腾芯片。可以想见华为等国内GPU公司针对DeepSeek训练的硬件升级已在攻克中,毕竟构建CUDA生态难,模仿PTX优化易。
也是国之幸事,早几年A股市养育出了幻方量化。
图片
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部