+关注

315

1023

2040

手机看

微信扫一扫，随时随地看

八个问题，带你零基础了解DeepSeek

四木相对论

2025-02-02 22:17发布于中国香港科技领域创作者

+关注

AI划重点 · 全文约3804字，阅读需11分钟

1.DeepSeek是一家专注于实现通用人工智能的科技公司，已发布13个大模型并开源，吸引全球开发者使用。

2.其中，DeepSeek-V3和DeepSeek-R1受到广泛关注，分别具有优秀的性能和较低的训练成本。

3.由于DeepSeek的创新，美国科技巨头如谷歌、苹果、Meta等纷纷开始深度研究，以重新领先市场。

4.另一方面，DeepSeek的成功可能对中国AI公司造成进一步限制，全球AI生态竞争格局可能因此重塑。

以上内容由腾讯混元大模型生成，仅供参考

AI 界当红炸子鸡 DeepSeek，在春节期间持续炸翻全球。

但我们发现，尽管它火遍全网，却仍有想吃瓜的“群众”不清楚 DeepSeek 到底是什么、为什么这么火、到底有什么过人之处。

因此，「四木相对论」整理了关于 DeepSeek 的八个基础问题，希望能给“零基础”的朋友们一些参考。

一. DeepSeek 是什么？

DeepSeek 中文名「深度求索」，是一家专注实现通用人工智能（以大模型为代表）的科技公司。它由量化资管巨头「幻方量化」创立于2023年7月。
DeepSeek 也指由 DeepSeek 公司开发的、类似于ChatGPT的智能助手。目前，该智能助手在网页端和移动端均已上线。
此外，外界也将该公司开发一系列大模型产品笼统称为“DeepSeek”。

二. DeepSeek 发布了哪些大模型？

DeepSeek已经发布13个大模型，并且都已开源。全球开发者都能使用DeepSeek的技术开发自己的模型、应用、产品。

各模型基本情况如下表所示：

最近引起全世界广泛关注的模型，主要是自研通用大模型 DeepSeek-V3、推理模型 DeepSeek-R1 。

DeepSeek-V3 是一个通用模型，日常常见的问题，都可以尝试使用 V3。

DeepSeek - R1 是一个推理模型，擅长处理复杂、需要多步思考的问题，适合做深度研究、解决代码问题、数学问题。

（*DeepSeek 的官方 GitHub 主页：https://github.com/deepseek-ai）

三. 普通用户如何使用 DeepSeek？哪里能调用API？

目前，DeepSeek已经上线官方应用，包括 Web 端和移动端。

普通用户通过注册就能使用 DeepSeek 的产品，目前Web和APP均免费。

Web 端直接通过访问网址（https://chat.deepseek.com/）对话。在对话框的左下角位置，可以选择是否开启“深度思考”模式。如果勾选，会使用 DeepSeek-R1 模型；如不勾选，则默认使用 DeepSeek-V3 。

App 直接在应用商店中搜索“DeepSeek”即可，需要注意甄选官方开发的版本。

在APP端，用户可以选择同时使用联网和推理功能。

不过最近 DeepSeek 由于受到网络攻击（或其他因素）时常罢工，需要不断重试才能得到模型的返回结果。

开发者也能通过多种渠道调用 DeepSeek 的API:

DeepSeek开发者平台：访问 DeepSeek 控制台
https://platform.deepseek.com/，注册登录并购买获取相应的密钥。（不过，近期该平台正在维护当中）
英伟达 NIM 微服务：
https://build.nvidia.com/deepseek-ai/deepseek-r1，支持API调用 DeepSeek-R1，需要使用邮箱注册账号。
微软 Azure：
https://ai.azure.com，微软 Azure 可以通过聊天操场，部署DeepSeek-R1，创建一个聊天机器人。
亚马逊 AWS：
https://aws.amazon.com/cn/blogs/aws/deepseek-r1-models-now-available-on-aws，DeepSeek-R1 现已在 Amazon Bedrock Marketplace 和 Amazon SageMaker JumpStart 中推出，还可以在 Amazon Bedrock Custom Model Import 和 Amazon EC2 实例来使用 DeepSeek-R1-Distill 模型。
硅基流动 SiliconCloud ：
https://siliconflow.cn/zh-cn/models ，上线了基于华为云昇腾云服务的 DeepSeek-V3、DeepSeek-R1，开发者可以直接调用 SiliconCloud API，价格与 DeepSeek 官方优惠期价格保持一致。
此外，Cerebras、Groq 也可以调用 DeepSeek-R1 的 API。

四. DeepSeek 能做什么？

DeepSeek 大火后，各路大神纷纷开发了各种用法：

首先是高情商陪聊：

（*图源网络）

有非常多的网友把它当算命大师，算起了紫微星。

还有人把 DeepSeek 当理财顾问。它会直接帮你综合评估，高风险、高回报率方案（DeepSeek不构成任何投资建议）。

也有网友综合利用 DeepSeek 的文档总结、文字生成和辅助写代码的功能生成各类社交文案和卡片。

（*来自禾刀爱AI的案例）

更有网友用 DeepSeek 写起了 PS 的修图脚本实现了一键修图。

（*网友用DeepSeek写的ps脚本）

（*运行脚本后的效果）

五. 为什么是V3和R1两款模型受到如此关注？

这两款模型，有以下几个特点：

1. 性能优秀

这两款模型的性能接近甚至在某些场景超越了“公认”的全球标杆公司OpenAI的最好产品（DeepSeek-V3 对标GPT-4o，DeepSeek-R1对标o1）。

2. 结合应用

两款模型发布后，均上线DeepSeek的Web/APP，让更多人能切身体验模型效果。

3. 训练成本低，产品性价比高

根据 DeepSeek 的官方技术报告，V3 的训练成本仅 557.6 万美元。OpenAI 虽然没有官方公布过 4o 的训练成本，但据OpenAI CEO Sam Altman 透露，GPT-4 的训练总计花费了约1亿美元。

V3 仅使用了 2048 个 H800 GPU、花费 3.7 天进行训练，使用GPU的数量和训练时长颠覆传统认知。
R1 和 V3 都可以在 DeepSeek 官网上免费使用；API 的定价中，R1 输入部分的价格是 o1 的 1.82%，输出部分是 o1 的 3.65%；V3 输入部分的价格是 GPT-4o 的 1.12%，输出部分是 GPT-4o 的 2.8%。

4. 技术创新

DeepSeek-R1 的训练模式颠覆了常规认知。DeepSeek-R1 是首个验证了仅通过 RL（强化学习）无需 SFT （监督微调）就能得到大幅推理能力增强和涌现的模型。这种训练方式大幅降低了数据标注成本，简化了训练流程，整体训练成本也得到了降低。

5. 开源

目前没有其他在性能上对标 GPT-4o 和 o1 的开源模型。OpenAI 旗下主打的核心模型都没有开源，用户要使用必须通过APP或 API 调用。

（*官方的测评数据，V3 的综合性能接近 GPT-4o，在许多具体的评测数据集上的分数甚至超过了 4o。）

（*DeepSeek-R1 对标 OpenAI 的 o1。根据官方评测结果，R1 的性能确实与 o1 接近，一些评测集上的成绩还要略微高于 o1）

（*DeepSeek-R1 与 OpenAI o1 的API调用价格对比）

六. DeepSeek 为什么让硅谷这么“害怕”？

1. 中国AI公司做出真正的创新，美国科技大厂担心失去领先地位。

在此之前，模型层面的技术革新虽然也并非罕见，但都是美国模型厂商率先推出、其他厂商跟进验证的节奏。这一次 DeepSeek 走到了前面。

首先，DeepSeek 在模型训练和架构上都有创新。

在DeepSeek-R1 之前，模型较为普遍训练路线是 SFT 结合 RL（监督微调结合强化学习），而 DeepSeek 在本次发布中首次在实验里验证了仅通过 RL 也能带来能力提升。

同时，V3 模型的一个关键架构创新是多头潜在注意力机制（Multi-Head Latent Attention），这能够显著降低推理阶段的成本、提高效率。

这些是美国AI公司没有做到的事情。

长期以来，AI发展依赖于计算能力的积累，可以说是超大规模者之间的竞赛。

对比美国的竞争者，DeepSeek的创新实现了训练成本和使用价格上数量级的减少，美国公司领先市场的重要优势被削弱了。

2. 开源：生态若能星火燎原，将抢占美国公司市场

DeepSeek 的 R1 不仅通过技术报告公开了训练过程，还开源了模型的权重。

DeepSeek的推理模型拥有高性能和低价格，使得开发者能将其用于越来越多的场景。

最近，微软、英伟达、AWS都纷纷接入DeepSeek-R1。

3. 大模型相关的美国科技股受到巨大冲击，“威胁”苗头初现

英伟达股价大跌，似乎暗示了 DeepSeek 的真实威胁。

因为DeepSeek 的路线一定程度上说明，无需最强算力也能训练出高性能大模型，而且 DeepSeek 把高性能模型开源的路线可能让更多公司放弃训练模型，冲击了英伟达核心算力产品（GPU）的需求，影响股价。

并且，市场担忧 DeepSeek 的成功冲击 OpenAI 等美国重点科技公司的市场前景，尤其是闭源模型方向。

（*DeepSeek 陆续发布的模型对比业内领先模型的性能）

七. DeepSeek 未来还会在哪些方面迭代？

这部分是外界对 DeepSeek 未来动向做出的猜测。

基于目前的成果，外界认为未来的创新点还是会围绕着成本、性能这两大核心要素。
多模态能力补齐。除夕凌晨，DeepSeek新发布的 DeepSeek-Janus-Pro 模型是一个多模态模型，同时拥有视觉理解和视觉生成的能力。

但 Janus 系列模型都是小参数量模型，如何通过 Janus 创新的模型框架训练出一个大参数量的多模态模型，可能是未来的重点之一。
DeepSeek 在2025年1月终于推出面向 C 端用户的 APP 产品，可能未来会探索/合作更多应用。