客户端
游戏
无障碍

0

评论

收藏

分享

手机看

微信扫一扫,随时随地看

单机部署版DeepSeek,谁才是最具性价比的方案?

2024年1月25日,中国人工智能领域迎来一场地震——本土大模型技术厂商深度求索(DeepSeek)正式开源其推理大模型DeepSeek-R1。其性能表现与OpenAI同期旗舰模型o1不相上下,但训练成本仅为后者的1/20,API调用价格更是低至1/28,综合使用成本骤降97%。这种“性能不妥协、成本砍到脚踝”的策略,迅速让DeepSeek-R1成为开发者社区、乃至整个全球的热议话题。

图片

然而,随着官方APP日活用户两周内破百万,API调用量激增300%,DeepSeek的服务器不堪重负,频繁触发“服务器繁忙”提示。普通用户抱怨访问卡顿,企业客户则因关键业务中断风险开始另寻出路。金融、医疗等领域的企业率先转向第三方云服务。而银行、政务等对数据隐私极度敏感的企业则选择进行本地化部署。

不过,除了上述这些财大气粗的国企央企以外,很多中小型企业、科研机构、高校和AI爱好者在预算有限的情况下,也想本地部署DeepSeek怎么办呢?幸好,DeepSeek-R1推出了INT4量化模型,将原有的模型压缩为1/8左右,大大缩减了对硬件资源的需求。可即便如此,满血版的DeepSeek-R1 INT4模型依然有671B参数(6710亿参数),运行需要至少6张NVIDIA A100 80GB或H100 80GB的显卡,整机成本在150万以上。

图片

为了满足更多AI应用场景的需求,DeepSeek又推出了R1蒸馏版模型。所谓蒸馏模型(Knowledge Distillation),就是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。通过模仿教师模型的输出,训练一个较小的学生模型,从而实现知识的传递。其目标是在尽可能保持模型性能的同时,降低模型的计算复杂度和存储需求,使其更适合在资源受限的环境中部署。

图片

满血版的DeepSeek-R1模型有6710亿参数,而蒸馏后的R1模型参数从700亿(70B)到15亿(1.5B)不等,参数规模越大,DeepSeek的能力就越强。打个比喻,如果6710亿的R1是大学教授的话,那往下分别是研究生(70B)、大学生(32B)、高中生(14B)、初中生(8B)和小学生(1.5B)。如果论干活能力,14B以下的模型实用价值不高,玩玩尝个鲜可以,它的智慧可能还不如你手机里面的小爱同学。所以,要想DeepSeek真正成为你的AI工作助手,怎么也得上32B,最好是70B模型。

图片

那运行这些DeepSeek-R1蒸馏模型究竟需要什么样的配置呢?我们特别挑选了8款消费级显卡进行测试,得到的答案有在预料之中,也有在预料之外。

我们的PC配置如下:

  • CPU:英特尔U9 285K

  • 主板:微星MEG Z890 ACE 战神

  • 内存:金士顿FURY叛逆者 24GB*2 8400Mhz

  • 硬盘:希捷酷玩540 1TB PCIe 5.0

  • 显卡:NVIDIA GeForce RTX 5090 FE 32G

  • NVIDIA GeForce RTX 5090 D 32G

  • NVIDIA GeForce RTX 5080 16G

  • NVIDIA GeForce RTX 4090 D 24G

  • NVIDIA GeForce RTX 4070 12G

  • NVIDIA GeForce RTX 4060 8G

  • NVIDIA GeForce RTX 3070 8G

  • NVIDIA GeForce RTX 2080 Ti 11G

  • 电源:鑫谷昆仑九重KE-1300P

  • 散热:酷冷至尊ION冰界360水冷

  • 部署工具:Ollama

  • GUI:AnythingLLM

  • 系统:Windows11专业版 24H2

  • 显卡驱动版本:Game Ready 572.43

图片

首先是DeepSeek-R1 7B模型推理测试,8张显卡都能正常运行。表现最差的4060 8G也有45 Token/s。Token是衡量AI运行速度的一个指标,可以简单理解成AI每秒生成的文字数量,Token值越高说明推理速度越快。从我们使用的主观感受来说,20 Token/s以上的速度是比较不错的表现,完全可以当作生产力工具来使用。

图片

接着我们进行了DeepSeek-R1 14B模型推理测试,这下8G显存的显卡无论核心速度如何,成绩都大幅下降,运行速度只有可怜的6 Token/s,也就是每秒蹦6个字左右。可以跑,但体验相对差一些。

图片

那为何8G显存的显卡性能下滑10倍呢?结论就是爆显存了。通过Windows任务管理器可以看到,14B模型将显存占满以后,有一部分数据跑到了共享显存里(也就是内存),而这部分数据其实是在CPU上跑,效率比GPU上慢太多,因此拖累了整体的效率。

图片

继续我们测试,这次是DeepSeek-R1 32B模型测试。这次16G显存以下的显卡全部报错,只有RTX 5080可以勉强一战,至于速度嘛,那叫一个惨不忍睹。原因还是和前面一样,爆显存了。32B模型对显存的需求确实在20G左右。

图片

最后是DeepSeek-R1 70B模型测试。这次RTX 5080也歇菜了,只有RTX 5090、RTX 5090 D和RTX 4090 D勉强能跑,不过速度嘛,也只有可怜的5 Token/s。可以观察到,70B模型有30GB左右数据运行在显存(GPU)上,另外12GB左右数据运行在内存(CPU)上,加起来刚好是42GB多。

图片

值得一提的是,不论跑哪个模型,RTX 5090和RTX 5090 D的表现都差不多。我们咨询了英伟达技术人员,得到的答复是运行DeepSeek这样的现代模型,其运行效率更依赖显存带宽,而非纯算力。说简单点就是GPU核心没有跑满,所以看不出差距。

从以上测试我们可以得出一个结论,如果你想本地运行DeepSeek-R1蒸馏模型,相比显卡的算力,显存的重要性更高一些。按照重要性排级的话:显存容量>显存带宽>核心算力

不过,即便RTX 5090也不能很好地运行70B模型(5 Token/s的速度还是太慢了),这一点有点让我们失望。那有没有更好的解决办法呢?有,加卡。我们再增加一张5090 D显卡,总显存容量来到64GB,这下运行速度直接飙到了23 Token/s,翻了4倍。

图片

之前我们担心RTX 5090 D不支持NV-Link,没法多卡工作,没想到DeepSeek不用NV-Link,两卡之间通过PCIE总线连接,也能多卡协作。不过这也仅限于AI推理,如果是AI训练的话,结果可能就另当别论了。

考虑到两张5090 D的价格依然很贵,以目前的价格加起来要5万元人民币,有没有更具性价比的搭配呢?于是我们又测试了5090 D+5080的双卡组合(32GB+16GB=48GB显存),结果输出速度也非常快,接近20 Token/s。

图片

到这里,我们基本已经有了一个清晰的认知。DeepSeek R1 蒸馏模型确实能在保持较高性能的同时,显著降低对硬件的要求,部署成本也大大降低,非常适合个人开发者、小型企业和中等复杂度开发测试。

显卡选择方面,如果是选择7B模型,目前主流的消费级显卡(显存8GB以上的)基本都能胜任。如果你要求高一些,需要14B模型,最好选择12G显存以上的显卡。如果你想运行32B模型,最好选择24G显存以上的显卡。如果你还不满足,想要上70B模型,那么双RTX 5090 D配置或者5090 D+5080会是更好的选择。

图片

当然,如果你是大型企业和科研机构,需要进行超大规模的AI训练和推理任务,并且预算充足,那么DeepSeek R1满血版(671B)模型可能更适合你。DeepSeek R1满血版(671B)模型在FP16精度下,显存需求高达1.34TB,4-bit量化显存也需要约350GB,至少需要16张NVIDIA H100 80GB + NVLink/InfiniBand互联才能满足本地化部署要求。

个人观点,仅供参考
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部