客户端
游戏
无障碍

315

评论

1023

2040

手机看

微信扫一扫,随时随地看

八个问题,带你零基础了解DeepSeek

AI划重点 · 全文约3804字,阅读需11分钟

1.DeepSeek是一家专注于实现通用人工智能的科技公司,已发布13个大模型并开源,吸引全球开发者使用。

2.其中,DeepSeek-V3和DeepSeek-R1受到广泛关注,分别具有优秀的性能和较低的训练成本。

3.由于DeepSeek的创新,美国科技巨头如谷歌、苹果、Meta等纷纷开始深度研究,以重新领先市场。

4.另一方面,DeepSeek的成功可能对中国AI公司造成进一步限制,全球AI生态竞争格局可能因此重塑。

以上内容由腾讯混元大模型生成,仅供参考

AI 界当红炸子鸡 DeepSeek,在春节期间持续炸翻全球。


图片


但我们发现,尽管它火遍全网,却仍有想吃瓜的“群众”不清楚 DeepSeek 到底是什么、为什么这么火、到底有什么过人之处。


因此,「四木相对论」整理了关于 DeepSeek 的八个基础问题,希望能给“零基础”的朋友们一些参考。


一. DeepSeek 是什么?

  1. DeepSeek 中文名「深度求索」,是一家专注实现通用人工智能(以大模型为代表)的科技公司。它由量化资管巨头「幻方量化」创立于2023年7月。


  2. DeepSeek 也指由 DeepSeek 公司开发的、类似于ChatGPT的智能助手。目前,该智能助手在网页端和移动端均已上线。


  3. 此外,外界也将该公司开发一系列大模型产品笼统称为“DeepSeek”。


二. DeepSeek 发布了哪些大模型?

DeepSeek已经发布13个大模型,并且都已开源。全球开发者都能使用DeepSeek的技术开发自己的模型、应用、产品。


各模型基本情况如下表所示:

图片


最近引起全世界广泛关注的模型,主要是自研通用大模型 DeepSeek-V3、推理模型 DeepSeek-R1 。


DeepSeek-V3 是一个通用模型,日常常见的问题,都可以尝试使用 V3。


DeepSeek - R1 是一个推理模型,擅长处理复杂、需要多步思考的问题,适合做深度研究、解决代码问题、数学问题。


图片

(*DeepSeek 的官方 GitHub 主页:https://github.com/deepseek-ai) 


三. 普通用户如何使用 DeepSeek?哪里能调用API?

目前,DeepSeek已经上线官方应用,包括 Web 端和移动端。


普通用户通过注册就能使用 DeepSeek 的产品,目前Web和APP均免费。


Web 端直接通过访问网址(https://chat.deepseek.com/)对话。在对话框的左下角位置,可以选择是否开启“深度思考”模式。如果勾选,会使用 DeepSeek-R1 模型;如不勾选,则默认使用 DeepSeek-V3 。


图片


App 直接在应用商店中搜索“DeepSeek”即可,需要注意甄选官方开发的版本。


图片


在APP端,用户可以选择同时使用联网和推理功能。


图片


不过最近 DeepSeek 由于受到网络攻击(或其他因素)时常罢工,需要不断重试才能得到模型的返回结果。


开发者也能通过多种渠道调用 DeepSeek 的API:


  1. DeepSeek开发者平台:访问 DeepSeek 控制台

    https://platform.deepseek.com/,注册登录并购买获取相应的密钥。(不过,近期该平台正在维护当中)


  2. 英伟达 NIM 微服务:

    https://build.nvidia.com/deepseek-ai/deepseek-r1,支持API调用 DeepSeek-R1,需要使用邮箱注册账号。


  3. 微软 Azure:

    https://ai.azure.com,微软 Azure 可以通过聊天操场,部署DeepSeek-R1,创建一个聊天机器人。


  4. 亚马逊 AWS:

    https://aws.amazon.com/cn/blogs/aws/deepseek-r1-models-now-available-on-aws,DeepSeek-R1 现已在 Amazon Bedrock Marketplace 和 Amazon SageMaker JumpStart 中推出,还可以在 Amazon Bedrock Custom Model Import 和 Amazon EC2 实例来使用 DeepSeek-R1-Distill 模型。


  5. 硅基流动 SiliconCloud :

    https://siliconflow.cn/zh-cn/models ,上线了基于华为云昇腾云服务的 DeepSeek-V3、DeepSeek-R1,开发者可以直接调用 SiliconCloud API,价格与 DeepSeek 官方优惠期价格保持一致。


  6. 此外,Cerebras、Groq 也可以调用 DeepSeek-R1 的 API。


四. DeepSeek 能做什么?

DeepSeek 大火后,各路大神纷纷开发了各种用法:


首先是高情商陪聊:

图片


(*图源网络)


有非常多的网友把它当算命大师,算起了紫微星。


图片


还有人把 DeepSeek 当理财顾问。它会直接帮你综合评估,高风险、高回报率方案(DeepSeek不构成任何投资建议)。


图片


也有网友综合利用 DeepSeek 的文档总结、文字生成和辅助写代码的功能生成各类社交文案和卡片。

图片

(*来自禾刀爱AI的案例)


更有网友用 DeepSeek 写起了 PS 的修图脚本实现了一键修图。


图片
图片

(*网友用DeepSeek写的ps脚本)


图片

(*运行脚本后的效果)


五. 为什么是V3和R1两款模型受到如此关注?

这两款模型,有以下几个特点:


1. 性能优秀


这两款模型的性能接近甚至在某些场景超越了“公认”的全球标杆公司OpenAI的最好产品(DeepSeek-V3 对标GPT-4o,DeepSeek-R1对标o1)。


2. 结合应用


两款模型发布后,均上线DeepSeek的Web/APP,让更多人能切身体验模型效果。


3. 训练成本低,产品性价比高


  • 根据 DeepSeek 的官方技术报告,V3 的训练成本仅 557.6 万美元。OpenAI 虽然没有官方公布过 4o 的训练成本,但据OpenAI CEO Sam Altman 透露,GPT-4 的训练总计花费了约1亿美元。


  • V3 仅使用了 2048 个 H800 GPU、花费 3.7 天进行训练,使用GPU的数量和训练时长颠覆传统认知。


  • R1 和 V3 都可以在 DeepSeek 官网上免费使用;API 的定价中,R1 输入部分的价格是 o1 的 1.82%,输出部分是 o1 的 3.65%;V3 输入部分的价格是 GPT-4o 的 1.12%,输出部分是 GPT-4o 的 2.8%。


4.  技术创新


DeepSeek-R1 的训练模式颠覆了常规认知。DeepSeek-R1 是首个验证了仅通过 RL(强化学习)无需 SFT (监督微调) 就能得到大幅推理能力增强和涌现的模型。这种训练方式大幅降低了数据标注成本,简化了训练流程,整体训练成本也得到了降低。


5.  开源


目前没有其他在性能上对标 GPT-4o 和 o1 的开源模型。OpenAI 旗下主打的核心模型都没有开源,用户要使用必须通过APP或 API 调用。

图片


(*官方的测评数据,V3 的综合性能接近 GPT-4o,在许多具体的评测数据集上的分数甚至超过了 4o。)


图片

(*DeepSeek-R1 对标 OpenAI 的 o1。根据官方评测结果,R1 的性能确实与 o1 接近,一些评测集上的成绩还要略微高于 o1)


图片

(*DeepSeek-R1 与 OpenAI o1 的API调用价格对比)


六. DeepSeek 为什么让硅谷这么“害怕”?


1. 中国AI公司做出真正的创新,美国科技大厂担心失去领先地位。


在此之前,模型层面的技术革新虽然也并非罕见,但都是美国模型厂商率先推出、其他厂商跟进验证的节奏。这一次 DeepSeek 走到了前面。


首先,DeepSeek 在模型训练和架构上都有创新。


在DeepSeek-R1 之前,模型较为普遍训练路线是 SFT 结合 RL(监督微调结合强化学习),而 DeepSeek 在本次发布中首次在实验里验证了仅通过 RL 也能带来能力提升。


同时,V3 模型的一个关键架构创新是多头潜在注意力机制(Multi-Head Latent Attention),这能够显著降低推理阶段的成本、提高效率。


这些是美国AI公司没有做到的事情。


长期以来,AI发展依赖于计算能力的积累,可以说是超大规模者之间的竞赛。


对比美国的竞争者,DeepSeek的创新实现了训练成本和使用价格上数量级的减少,美国公司领先市场的重要优势被削弱了。


2. 开源:生态若能星火燎原,将抢占美国公司市场


DeepSeek 的 R1 不仅通过技术报告公开了训练过程,还开源了模型的权重。


DeepSeek的推理模型拥有高性能和低价格,使得开发者能将其用于越来越多的场景。


最近,微软、英伟达、AWS都纷纷接入DeepSeek-R1。


3. 大模型相关的美国科技股受到巨大冲击,“威胁”苗头初现


英伟达股价大跌,似乎暗示了 DeepSeek 的真实威胁。


因为DeepSeek 的路线一定程度上说明,无需最强算力也能训练出高性能大模型,而且 DeepSeek 把高性能模型开源的路线可能让更多公司放弃训练模型,冲击了英伟达核心算力产品(GPU)的需求,影响股价。


并且,市场担忧 DeepSeek 的成功冲击 OpenAI 等美国重点科技公司的市场前景,尤其是闭源模型方向。


图片

(*DeepSeek 陆续发布的模型对比业内领先模型的性能)


七. DeepSeek 未来还会在哪些方面迭代?

这部分是外界对 DeepSeek 未来动向做出的猜测。


  1. 基于目前的成果,外界认为未来的创新点还是会围绕着成本、性能这两大核心要素。


  2. 多模态能力补齐。除夕凌晨,DeepSeek新发布的 DeepSeek-Janus-Pro 模型是一个多模态模型,同时拥有视觉理解和视觉生成的能力。


    但 Janus 系列模型都是小参数量模型,如何通过 Janus 创新的模型框架训练出一个大参数量的多模态模型,可能是未来的重点之一。


  3. DeepSeek 在2025年1月终于推出面向 C 端用户的 APP 产品,可能未来会探索/合作更多应用


八、DeepSeek爆火 对中美 AI 格局带来的影响?


1. 国内AI公司面临进一步限制。


  • 芯片制裁可能更严重


DeepSeek 的低成本训练成果,可能会让美国进一步收缩可供出口的芯片型号。未来,国内模型厂商可用的 GPU 型号越来越少,代际越来越旧。


  • 模型和应用层面的封锁也会随之而来


由于隐私、数据合规等质疑,一些国家和地区已经要求 DeepSeek 停止服务。


X (Twitter)上,一些 AI 科普类博主从之前的无脑捧吹 DeepSeek 的帖子,已经转变为教用户 “如何本地化部署一个 DeepSeek R1 来保护自己的数据” 这样的帖子。


2. 全球AI生态的竞争可能会被重塑。


DeepSeek 得到市场认可,一定程度上说明,算法效率、经济高效将成为未来竞争中的核心要素。


DeepSeek 正推动 AI 行业从“算力军备竞赛”转向“算法效率战争”,AI技术进一步普惠化。


那些以往以“算力为重”的公司将要重新审视自己的战略。


3. 硅谷巨头们急迫重新领先。


技术上进行革新、重新夺取领先地位的紧迫感,笼罩着美国的科技巨头们。


据称,目前 Google、Apple、Meta 等公司,已经纷纷开始深度研究 DeepSeek。各家财报的电话会上,DeepSeek 也是一个绕不开的问题。


尽快推出下一个代际的领先模型,是硅谷各家的当务之急。







免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
00:35
猪洞出麻痹,祖玛刷天尊,秘境爆开天,三把开天合火龙!
广告金蛇传奇高爆
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部