北京时间1月31日,据英伟达网站,DeepSeek R1 671b已作为英伟达NIM微服务预览版在build.nvidia.com上发布。DeepSeek R1 NIM微服务在单个英伟达HGX H200系统上每秒最多可处理3872个token。开发人员可以对API进行测试和实验,预计该API不久将作为英伟达AI Enterprise软件平台的一部分,以可下载的NIM微服务形式推出。
此外1月30日,微软宣布为Win11用户优化DeepSeek-R1模型,标志着在将DeepSeek先进的AI技术集成到个人电脑中的一个重大进步,标志着PC从“通用计算设备”向“AI原生终端”的转型加速,代表了AI技术向边缘设备迁移的一个重要步骤。首批将面向搭载高通骁龙X芯片的Copilot+ PC推出,随后将面向搭载英特尔酷睿Ultra 200V等平台的Copilot+ PC推出。
DeepSeek发布的新一代推理模型DeepSeek-R1,该模型性能与OpenAI的GPT-4o正式版持平,并开源,这一发布引起了全球科技界的广泛关注。现在,美国科技公司亚马逊、英伟达、微软等已上线部署支持用户访问DeepSeek-R1模型。
据了解,深度求索公司R1模型训练成本仅为560万美元,远远低于美国开放人工智能研究中心、谷歌、“元”公司等美国科技巨头在人工智能技术上投入的数亿美元乃至数十亿美元。
什么是DeepSeek?
DeepSeek,全称为杭州深度求索人工智能基础技术研究有限公司,于 2023年7月17日正式成立,是一家专注于先进大语言模型(LLM)及相关技术研发的创新型科技企业。该公司由量化资管领域的巨头幻方量化倾力创立,其创始人梁文锋在量化投资和高性能计算领域有着深厚的专业底蕴以及丰富的实践经验积累。
DeepSeek 始终秉持通过技术创新来强力推动人工智能技术的发展与应用这一理念,将大语言模型的研发、训练、优化以及在自然语言处理、计算机视觉、机器学习等多个领域的应用作为核心业务板块。其有着清晰明确的技术定位,旨在以高效且低成本的方式去实现通用人工智能(AGI)这一宏伟目标,通过持续不断地优化算法和模型架构,有效降低模型训练成本,显著提升模型性能,进而为全球用户提供高质量的人工智能服务。
一图梳理相关公司
DeepSeek产业链
DeepSeek产业链包括上游算力基础设施、AI芯片等(为AI模型研发训练提供基础支持)、中游模型研发、训练与优化(产业链核心环节,价值占比最高),下游商业应用和技术合作服务等环节
产业链中,AI基础设施、算力、算法、应用等都是值得重点关注的核心环节。
上游算力基础设施
算力基建和硬件是AI模型研发与训练的核心基础,对模型的性能表现、运行效率以及成本支出具有重要影响。
DeepSeek创始人、头部量化私募幻方量化创始人梁文锋曾表示,DeepSeek面临的主要制约因素不是资金,而是高端算力的使用权,这些芯片对于训练先进AI模型至关重要。
尽管有人表示,新的DeepSeek成本减少,可以提供同规模的多个大模型。但是当前AI大模型的训练成本仍然居高不下,即便推理效率有所提升,但训练出高效模型依然可能依赖于大规模的计算资源。如果追求更高的模型精度,训练阶段的算力消耗并未必会减少,因此上游的算力需求依然强劲。
同时,下游应用的爆发式增长也将进一步推动算力基础设施的建设和发展。
从供应链的安全性和性价比角度出发,国产算力基础设施的占比有望持续提升,包括服务器、算力芯片、交换机、光模块等多个关键环节。
上游算力环节中,浪潮信息为DeepSeek北京亦庄智算中心提供AI服务器集群,配备英伟达H800GPU及自研AIStation管理平台;中科曙光承建DeepSeek杭州训练中心液冷系统,单机柜功率密度达35kW,PUE小于1.15,为DeepSeek提供算力支持;润泽科技廊坊数据中心为DeepSeek提供3000+机柜资源,采用间接蒸发冷却技术,运营成本低于同行15%,为DeepSeek提供算力资源;并行科技为DeepSeek提供了多种并行计算技术;寒武纪和景嘉微等国产AI芯片制造商,也将受益于DeepSeek技术推动的算力需求增长。
此外,DeepSeek的AI模型已适配华为昇腾芯片,在适配过程中,DeepSeek解决了芯片不支持某些代码的问题,通过改算法绕开限制,并优化了性能。
每日互动作为幻方量化的二股东,牵头的浙江大数据计算中心为DeepSeek提供算力支持,此外还为DeepSeek提供海量用户行为语料数据,用于模型训练和优化、双方在算法和数据智能领域有深度合作;昆仑万维与新加坡南洋理工大学联合开发的Q算法显著提升了DeepSeek模型的推理能力。例如,在数学领域,Q算法帮助DeepSeek-Math-7b模型在MATH数据集上的准确率提升至55.4%,超越谷歌Gemini Ultra。
中游:模型研发和数据训练
中游模型研发训练是AI产业链的核心环节,直接影响到AI模型的最终性能和效果。
DeepSeek模型由杭州深度求索人工智能基础技术研究有限公司独立研发训练。
此外模型研发离不开高质量的数据训练。
AI数据集是大模型训练和测试的基础,数据标注是数据集最核心的环节,贯穿大模型全生命周期。当前AI大模型和智能体持续涌现,高质量和专业化的数据标注成为刚需。
部分厂商与幻方量化(DeepSeek的母公司)在金融语料库方面存在合作,数据资源可能被用于DeepSeek模型的训练和优化,为DeepSeek提供专业的金融领域数据支持。
拓尔思政务大数据市占率第一,拥有4000+行业知识库,可快速生成领域微调数据;此外,还与DeepSeek联合开发金融舆情大模型。
此外,该环节相关厂商中,海天瑞声AI训练数据市占率国内第一;法本信息的FarAI人工智能平台包含了自动化数据标注工具;博彦科技为大模型公司提供多种数据类型和标注任务;中科软数据标注平台在医疗领域有相关应用;易华录已经拥有24个数据湖进入运营期,将申报建设国家级数据标注基地;汉王科技获得了发明专利授权“医疗领域标注数据的获取方法、装置、电子设备”;此外包括数据堂、云测数据、龙猫数据、星尘数据等数据标注专业型服务商。
分布式训练框架方面,东方国信CirroData数据库支持大规模分布式训练数据管理,已用于电信运营商AI平台;星环科技SophonLLM工具链提供国产化微调解决方案,适配昇腾和海光硬件。
模型压缩和部署方面,格灵深瞳INT4量化工具可将175B模型压缩至8GB显存需求,边缘部署刚需技术;当虹科技视频压缩技术转用于模型参数传输优化,降低分布式训练通信成本。
下游:AI应用、技术合作与服务
商业化应用和技术合作服务是AI产业链的价值实现环节,关系到AI产品的市场接受度和盈利能力。
DeepSeek模型在教育、医疗、金融等多个领域广泛应用。该领域相关布局厂商中,根据公开资料显示,科大讯飞在教育领域接入DeepSeek-Math模型,联合推出AI数学辅导应用“星火助学”,共同推动AI技术在教育领域的应用落地;金山办公WPS智能写作功能集成DeepSeek-WriterAPI,公文生成效率提升3倍,错误率下降90%,为DeepSeek提供商业化应用场景。
此外,浙江东方通过旗下杭州东方嘉富基金参投DeepSeek天使轮,持股路径为浙江东方→东方嘉富(持股40%)→DeepSeek;华金资本珠海国资旗下投资平台,通过华金领越基金间接参与DeepSeekPre-A轮融资,布局AI大模型赛道。
本月IDC最新发布的报告显示,市场开始进入整合期,其中,“由于商业模式难以为继,基础模型市场将进行整合。到2029年,企业使用的80%基础模型最多由8家供应商提供。”
当前全球AI军备竞赛加速,国内如DeepSeek、月之暗面等人才密度高且具备较强算法和压缩AI算力成本技术能力的厂商有望加速引领国内AI领域的新一轮变革。
38家DeepSeek概念股
与DeepSeek火遍全球同样值得关注的,是DeepSeek相关概念股的迅猛涨势。
▲截至2月7日收盘,代表性DeepSeek概念股股价情况,来源:腾讯自选股
AI应用、云计算、AI算力、大数据、网络安全、国产软硬件都成为热门板块,与此同时,计算机、算力租赁、机器人、消费电子代工、新兴消费品等相关领域也被迅速带火,甚至AI教育板块都跟着沾光,DeepSeek所擅长的金融、医疗、编程等方向也备受关注。
▲截至2月6日收盘,WIND热门概念指数及WIND中国行业指数,来源:Wind
▲截至2月7日收盘,WIND热门概念指数及WIND中国行业指数,来源:Wind
▲DeepSeek概念股一览,截至2月7日收盘,来源:Wind