客户端
游戏
无障碍

43

评论

72

135

手机看

微信扫一扫,随时随地看

继OpenAI之后,Anthropic CEO发声:DeepSeek正用一个意想不到的方式,改写全球AI规则

(关注公众号设为🌟标,获取AI深度洞察)

图片


图片


【导语】

在全球AI领域,当两大巨头相继对同一家公司发表评论时,往往意味着一个重要拐点的到来。近期,继OpenAI CEO Sam Altman称赞DeepSeek的R1模型"令人印象深刻"后,Anthropic的掌门人也对这家中国AI公司作出深度解读,引发业界广泛关注。

【核心要点预览】

  • DeepSeek的技术突破更多体现了AI领域的自然成本下降趋势,而非颠覆性创新。

  • 在全球AI竞争格局中,大规模计算资源的获取和控制能力仍是决定性因素。

  • 企业需要投入更多资源来保持竞争力,谁能获得并掌控关键计算资源,谁就能在全球AI竞争中占据主导地位。

  • 竞争不仅仅是技术层面的较量,更关乎未来全球科技格局的走向。

当OpenAI的Sam Altman称赞DeepSeek的R1模型"令人印象深刻"时,图片就在昨天29日Anthropic的CEO Dario Amode也对这家Deepseek做出深度解读。这两位全球顶级AI企业掌门人的关注,让我们不得不重新思考:DeepSeek到底做对了什么?

从表面上看,DeepSeek似乎只是用更低的成本,复制了美国顶级AI模型的成就。但在Amodei看来,事情远不这么简单。这不仅关乎单个企业的成功,更揭示了整个AI行业发展的深层规律。正如他所说,DeepSeek的进展并非偶然,而是符合AI技术发展的基本逻辑。

要理解这一现象,我们首先需要厘清推动AI发展的三大核心动力。这些动力不仅解释了为什么DeepSeek能够在短时间内取得如此显著的进展,也让我们得以一窥未来AI竞争的关键所在。

三大 AI 发展动力

在谈政策之前,先得了解三种关于 AI 系统的核心发展动力:

1、扩展定律 ( Scaling laws )

简单来说,当我们对 AI 系统加大训练规模时,它在各类认知任务上的表现往往会平稳而且大幅度地提升。我的团队和我在 OpenAI 时,就率先记录了这个现象。比如,一款投入 100 万美元训练的模型可能只能完成 20% 的重要编程任务;如果投入 1000 万美元,成绩就能提升到 40%;而 1 亿美元的投入则能达到 60%——其中的差距在实际应用中意义非凡:再多投入一个数量级,模型可能就从本科生水平跳到博士生水平。因此,各家公司都在积极投入资金来提升模型实力。

2、推动曲线 ( Shifting the curve )

在这一领域,层出不穷的新想法能让模型训练和运行效率更高:可能是对 Transformer 架构做一些微调,也可能是让模型在硬件上跑得更顺畅。新一代硬件同样有这方面的效果。其结果就是“推动”整条曲线前进:如果有个创新可以带来 2 倍的“ compute multiplier ( CM )”,那么同样的指标就能用原本一半的预算达成。前沿的 AI 公司经常发现各种幅度不同的 CM ——大多是 1.2 倍左右的改进,有时能到 2 倍,偶尔还能达到 10 倍。由于更强大的系统价值极大,公司往往会把节省下来的成本再投回到更大规模的训练上,从而让模型更加智能;唯一的限制是公司自身的预算规模。很多人会直觉地认为:“先贵后便宜”,好像 AI 质量不变,价格便宜了我们就会少用芯片,但真正要看的是扩展曲线:当效率提升时,我们只会更快往曲线的高端走,因为高端的潜在价值实在太大。我的团队在 2020 年发表的论文指出,算法改进能让这条曲线每年推进 1.68 倍;近年来这个数字可能更高,还没把硬件和效率提升算进来。估计当下的速度或许能达到每年 4 倍。有另一种测算也能佐证这一点。而且,训练曲线的这种推动也会带动推理曲线 ( inference curve ) 的进步,所以,保持同样质量的模型时,成本已在过去几年里不断下降。像 Claude 3.5 Sonnet 就比最初的 GPT-4 发布晚了 15 个月,但在大部分测评上都超过了 GPT-4 , API 价格却便宜了 10 倍左右。

2、转变范式 ( Shifting the paradigm )

有时候,扩展所基于的核心思路会发生变化,或者训练流程里会加入新的扩展手段。2020 年到 2023 年,大家主要是不断加大预训练模型的规模——先在海量 internet text 上进行训练,再辅以少量其它训练。可到了 2024 年,用 reinforcement learning ( RL ) 来教模型生成推理链 ( chains of thought ) 已成为新的研究热点。Anthropic 、 DeepSeek 和其他不少公司(尤其是 OpenAI 在 9 月推出的 o1-preview 模型)都发现,这样的训练方式能显著提升模型在数学、编程竞赛以及类似推理任务上的客观性能。具体做法是先获取一个常规预训练模型,然后在第二阶段使用 RL 来增强它的推理能力。因为这种 RL 还算新颖,大家都只是在第二阶段投入相对不大的费用,但即便从 10 万美元提高到 100 万美元也能带来巨大飞跃。如今,各家公司都在加速把这部分预算扩展到数亿乃至数十亿美元,但重要的是要意识到:我们正处于一个“交汇点”上——这一新范式非常强大,而且还处在扩展曲线的初期,因此可以在短期内看到惊人的进步。

DeepSeek 的模型发布

前面提到的三种驱动 AI 发展的动力,也能帮助我们理解 DeepSeek 最近的模型发布。大约一个月前, DeepSeek 推出了 “ DeepSeek-V3 ”,这是一种纯预训练模型³——对应前文第 3 点所提及的第一阶段。上周他们又发布了 “ R1 ”,加入了第二阶段。从外部观察,我们无法知晓这些模型的所有细节,但以下是我对它们的主要认识。

实际上,真正令人眼前一亮的,是一个月前就已发布的 DeepSeek-V3 ——这个模型当时就值得引起大家的关注(我们也确实如此)。DeepSeek-V3 作为一款预训练模型,似乎能在某些关键任务上接近美国顶尖 US 模型的水平⁴,而且训练成本还明显更低(不过我们发现, Claude 3.5 Sonnet 在现实编程等一些关键任务上依然有明显优势)。DeepSeek 团队主要依靠在工程效率方面的一系列真材实料、令人印象深刻的创新做到这一点,其中包括对 “ Key-Value cache ” 的创新管理,以及推动 “ mixture of experts ” 方法比过去更进一步的尝试。

但我们要仔细看看背后情况:

  • DeepSeek 并没有像一些人所说的那样,“只花 600 万美元⁵就做到了 US AI 公司花数十亿美元才能完成的事”。至少就 Anthropic 而言:Claude 3.5 Sonnet 是个中等规模的模型,训练花费是几千万美元级别(我不会给出确切数字)。此外, 3.5 Sonnet 并没有通过更庞大或更昂贵的模型进行任何训练(这与传言相反)。Sonnet 的训练发生在 9 到 12 个月前,而 DeepSeek 的模型是在去年 11 月和 12 月训练的,而且 Sonnet 在许多内部和外部测评中依然领先。所以,更合理的说法是:“ DeepSeek 以相对较低的成本(但没想象中那么夸张),做出了性能接近美国 7~10 个月前那些模型的成果。”

  • 如果过去的历史趋势是训练成本每年能下降 4 倍左右,那么像 2023 和 2024 年那样的大幅度成本下降并不意外。因此,人们自然而然会在今年这个时段,看到一个比 3.5 Sonnet / GPT-4o 便宜 3~4 倍的模型出现。而因为 DeepSeek-V3 和美国目前最前沿的模型相比还有一定差距——可以估算它在扩展曲线 ( scaling curve ) 上差了约两倍(我其实已经很看好它了)——那么如果 DeepSeek-V3 的训练成本比美国当前这些一年前发布的模型低 8 倍左右,也完全在预期范围内。所以,即便认可 DeepSeek 自己宣称的训练成本,这个结果也只是“符合历史趋势”,甚至有可能还达不到。比如,从最早的 GPT-4 到 Claude 3.5 Sonnet 的推理价格差就达到 10 倍,而 3.5 Sonnet 的质量还胜过 GPT-4 。因此, DeepSeek-V3 称不上是个重大突破,也没有在根本上改变大规模语言模型 ( LLM ) 的经济逻辑;它只是一个落在成本持续下降曲线上的“正常点”。不过,此次与以往不同的地方在于,第一家把这种常规成本下降呈现出来的企业是来自中国,这在地缘政治层面非常值得关注。但美国公司很快也会跟进——不是通过抄袭 DeepSeek ,而是因为他们一样在达成常规的成本下降趋势。

  • DeepSeek 和美国 AI 公司都拥有比以往训练它们“主打”模型时更多的资金和芯片储备。额外的芯片往往用于研发,以尝试新的思路,或者来训练更大的模型(可能还没正式推出,或者需要多次试验才能成功)。据报道(我们无法保证其真实性), DeepSeek 可能拥有 5 万块 Hopper 代芯片,我估算这可能比美国主要 AI 公司拥有的数量相差 2~3 倍(相比之下,这比 xAI 的 “ Colossus ” 集群少 2~3 倍)。这 5 万块 Hopper 芯片差不多要花 10 亿美元。因此, DeepSeek 作为一家公司(不是训练单个模型),它的总投入和美国 AI 实验室比并没有高出很多。

  • 另外,“扩展曲线” ( scaling curve ) 的分析确实有些简化,因为不同模型在不同任务上有强项和弱项;曲线仅仅是一个忽略了许多细节的粗略平均值。就 Anthropic 的模型而言,正如我前面提到的, Claude 在写代码方面表现极好,而且在人机交互的风格设计上也相当优秀(很多人用它来做个人建议或情感支持)。在这些以及一些其他任务上, DeepSeek 与之相比还差得远。这部分实力差异不会体现在单纯的扩展曲线数据里。

执行得力的 出口管制 是唯一能大幅降低中国大规模获取芯片风险的关键手段,也是在国际格局中维持单极或双极态势的重要因素。

并不是因为 DeepSeek 表现优异, 出口管制 就已经失效。正如我先前提到, DeepSeek 拥有相当可观的芯片资源,所以他们能研发并训练出高水平的模型并不令人意外。他们在硬件与资金上并不比 US 的 AI 公司匮乏,而 出口管制 并非促使他们“创新”的根本原因。就工程实力而言,他们的团队确实相当出色,也显示出China在此领域与 US 之间的竞争力。

同时, DeepSeek 并没有证明中国可以无限通过走私获得所有想要的芯片,也没有显示 出口管制 存在难以补救的漏洞。我并不认为 出口管制 的目标是阻止它获得几万块芯片——隐藏 1B 美元的交易也许并非绝无可能,但要隐藏 10B 或 100B 美元就相当困难,更不用说一次性走私数以百万计的芯片。在 SemiAnalysis 的报道中, DeepSeek 目前拥有包括 H100 、 H800 和 H20 在内的约 5 万块芯片;自 H100 发布以来就被列入禁运清单,所以如果他们真有 H100 ,只能通过少量特殊渠道获取(尽管 Nvidia 方面曾表示, DeepSeek 所做的工作“完全符合 出口管制 规定”)。至于 H800 是在 2022 年第一轮管制时仍可正常出口的,但在 2023 年 10 月新规出台后被禁止,因此很可能是禁令前已交付;而 H20 虽然在训练效率上不及前两种芯片,但推理性能较佳,目前仍属允许出口范围。可见, DeepSeek 的芯片组合中,一部分属于当时未被禁止但后续或应纳入限制的型号,一部分是在禁令生效前就交付,还有一些可能是通过非正常手段获取。由此也能看出, 出口管制 正在不断完善、堵漏;如果没有这些管制,或许他们可以更容易获得更多更高端的芯片。只要管控收紧及时,就有可能限制 China 在更大规模上获取这些芯片,从而提升 US 维持优势地位的可能性。

之所以我会着重讨论 出口管制 与 US 的安全问题,并不是要刻意“针对” DeepSeek 。从他们的访谈看,这家公司专注于技术研发本身,致力于做出实用产品。

但如果他们的技术能在 AI 领域与美国持平甚至超越,全球在此领域的竞争格局将会出现诸多不确定性。基于多种考量, 出口管制 依然是影响这一竞争态势的重要调控手段。技术不断升级、效能不断提高, 若将此视为放宽管制的理由,则可能带来更多不可预见的风险。

【往期回顾】

来源:官方媒体/网络新闻

编辑:深思

主编:图灵

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
01:00
豆包AI好用的免费AI助手,免费使用!
广告豆包
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部