客户端
游戏
无障碍

0

评论

1

2

手机看

微信扫一扫,随时随地看

Anthropic 首席执行官 Dario Amodei 长文讨论 DeepSeek 崛起及芯片出口管制




图片

Anthropic 首席执行官 Dario Amodei 认为 DeepSeek 对美国 AI 领导地位威胁被夸大,虽不将其视为对手,但强调美国加强芯片出口管制的重要性,文中阐述了美国过往相关管制措施,还通过解读人工智能发展的三大动力分析 DeepSeek 模型并非独特突破,深入探讨出口管制对未来世界格局的影响 。


近日,中国人工智能公司 DeepSeek 的崛起成为全球关注的焦点。2025 年 1 月 29 日,美国 AI 初创公司 Anthropic 的首席执行官 Dario Amodei 发表了一篇万字长文,对这一现象进行了深入讨论。


Dario Amodei是一位意大利裔美国人工智能研究员和企业家,出生于1983年1月13日。他本科毕业于斯坦福大学物理系,博士毕业于普林斯顿大学生物物理系。曾先后在百度、谷歌工作,2016年加入OpenAI,负责AI安全团队,后升任研发总监、副总裁,主导了GPT-2和GPT-3语言模型的开发。2021年,他与妹妹丹妮拉共同创立了Anthropic,致力于构建可靠、可解释和可操纵的AI。他创办的Anthropic开发了大型语言模型Claude,Claude以安全性和高效性著称,擅长对话生成、文本分析、内容创作等任务,具有高效的自然语言理解、人性化的对话风格、强大的多任务处理能力等优势,在教育、商业、客户服务等多个领域有着广泛应用。


图片


Dario Amodei 在文中表示,他并不认为中国的 DeepSeek 是 “对手”,尽管 DeepSeek 取得了显著的进展,但他认为 DeepSeek 对美国 AI 领导地位的威胁被 “大大夸大” 了。他指出,DeepSeek 于 2024 年 12 月发布的 DeepSeek - v3 虽然是真正的创新,其团队也在一个月前就注意到了该模型,但 DeepSeek 的创新主要集中在工程效率上,且 DeepSeek - v3 训练成本的降低符合技术曲线的发展规律。他还驳斥了美国媒体普遍引用的 “DeepSeek 以 600 万美元完成了美国公司花费数十亿美元完成的任务” 这一说法,举例称 Anthropic 于 2024 年 6 月发布的 Claude 3.5 Sonnet 在许多内部、外部测评中领先于 DeepSeek - v3,而该模型是在 DeepSeek - v3 发布之前的 9 - 12 个月训练的,成本为数千万美元。他认为正确的说法是 “DeepSeek 生产的模型接近 7 - 10 个月前美国模型的性能,成本要低得多(但远不及人们所说的比例)”,并且模型训练成本每年降低四分之一是行业规律,而 DeepSeek - v3 目前还无法企及美国最顶尖的模型水平,因此其训练成本是一年前美国最顶尖模型训练成本的八分之一完全符合趋势。


然而,在谈及 DeepSeek 的崛起时,Dario Amodei 却强调了美国加强人工智能芯片出口管制的重要性。他宣称,“如果想要最终获胜,美国和其他国家的 AI 企业必须拥有比中国更好的模型,但我们不应该在没有必要的情况下将技术优势拱手让给中国。” 他认为,美国只有严格执行出口管制才能阻止中国公司获取最终实现 AI 全部潜力所需的底层算力。


此前,美国在人工智能芯片出口管制方面已经采取了一系列措施。自 2022 年 10 月以来,美国不断提高对中国的出口管制,阻止半导体巨头英伟达向中国出口高性能芯片。虽然美国政府已从 2023 年 10 月起禁止向中国出口英伟达 h800 等芯片,但中国依然是英伟达的重要市场,该公司已为中国市场提供了算力更弱一些的 h20 芯片。而近期,特朗普政府官员正在研究将销售限制扩大至英伟达对华 “特供版” AI 芯片 h20。


Dario Amodei 的这篇长文,着实引发了人们对于中美人工智能发展以及芯片出口管制问题的深度思考。展望未来,随着人工智能技术的持续演进,中美在该领域的竞争与合作究竟会如何演变,无疑值得人们予以持续的关注。今日,我将其万字长文翻译完成,以飨读者,期冀能为诸位带来一定的启发。


关于深度探索(DeepSeek)与出口管制

作者:Dario Amodei


几周前,我提出了美国应加强对华芯片出口管制的观点。自那时起,中国的人工智能公司 DeepSeek 已在某些方面以较低成本接近了美国前沿 AI 模型的性能水平。


在这里,我不会聚焦于深度求索(DeepSeek)是否对美国如 Anthropic 这样的人工智能公司构成威胁(尽管我确实认为许多关于它们对美国 AI 领导地位威胁的说法被大大夸大了) 。相反,我将集中探讨深度求索的发布是否削弱了针对芯片的出口管制政策的合理性。我认为它们并未削弱。事实上,我认为这些发布使得出口管制政策比一周前更加生死攸关。


出口管制具有至关重要的目的:确保民主国家在人工智能发展方面保持领先地位。需要明确的是,它们并非美国与中国之间逃避竞争的手段。归根结底,如果我们希望胜出,美国及其他民主国家的人工智能公司必须拥有比中国更优秀的模型。但在非必要情况下,我们不应主动向其他国家提供技术优势。


图片


#01


人工智能发展的三大动力


在我提出政策论点之前,我将描述人工智能系统的三个基本动态,理解这些至关重要:


  1. 扩展定律(Scaling laws)。人工智能的一个特性——我和我的联合创始人在 OpenAI 工作时是最早记录这一特性的人之一——是在其他条件相同的情况下,扩大 AI 系统的训练规模会在一系列认知任务上带来全面而平稳的改进。例如,一个价值 100 万美元的模型可能解决 20%的重要编码任务,1000 万美元的模型可能解决 40%,1 亿美元的模型可能解决 60%,以此类推。这些差异在实践中往往具有巨大的意义——另一个 10 倍的因子可能对应于本科生与博士技能水平之间的差异——因此公司正在大力投资于训练这些模型。

  2. 曲线移动(Shifting the curve)。该领域不断涌现出大大小小的想法,使事物变得更有效或更高效:可能是对模型架构的改进(对当今所有模型使用的基本 Transformer 架构的微调),或者仅仅是在底层硬件上更高效地运行模型的方法。新一代硬件也具有同样的效果。这通常会导致曲线移动:如果创新是一个 2 倍的“计算乘数”(CM),那么它允许你在 500 万美元而不是 1000 万美元的情况下在编码任务上获得 40%的成果;或者在 5000 万美元而不是 1 亿美元的情况下获得 60%的成果,等等。每个前沿 AI 公司都会定期发现许多这样的 CM:经常是小的(约 1.2 倍),有时是中等的(约 2 倍),偶尔会有非常大的(约 10 倍)。由于拥有更智能系统的价值非常高,这种曲线移动通常会导致公司在训练模型上花费更多,而不是更少:成本效率的提升最终完全用于训练更智能的模型,仅受公司财务资源的限制。 人们自然会被“先贵后便宜”的想法所吸引——仿佛 AI 是一个质量恒定不变的事物,当它变得更便宜时,我们会用更少的芯片来训练它。但重要的是扩展曲线:当它发生变化时,我们只是更快地跨越它,因为曲线终点的价值是如此之高。2020 年,我的团队发表了一篇论文,提出由于算法进步,曲线的变化速度约为每年 1.68 倍。自那以后,这一速度可能显著加快;而且这还没有考虑效率和硬件的因素。我猜测现在的数字可能是每年约 4 倍。另一个估计在这里。训练曲线的变化也会影响推理曲线,因此,在保持模型质量不变的情况下,价格大幅下降的情况已经持续了多年。例如,比原始 GPT-4 晚发布 15 个月的 Claude 3.5 Sonnet 在几乎所有基准测试中都超过了 GPT-4,而其 API 价格却低了约 10 倍。

  3. 转变范式(Shifting the paradigm)。每隔一段时间,被扩展的基础事物会发生一些变化,或者训练过程中会加入一种新的扩展类型。从 2020 年到 2023 年,主要扩展的是预训练模型:这些模型在越来越多的互联网文本上进行训练,并辅以少量其他训练。到了 2024 年,利用强化学习(RL)训练模型以生成思维链的想法成为了扩展的新焦点。Anthropic、DeepSeek 以及许多其他公司(尤其是 OpenAI,他们在 9 月发布了 o1-preview 模型)发现,这种训练极大地提高了在特定、可客观衡量的任务上的表现,如数学、编程竞赛以及类似这些任务的推理。这一新范式首先从普通的预训练模型开始,然后在第二阶段使用 RL 来增加推理技能。重要的是,由于这种 RL 类型是新的,我们仍处于扩展曲线的早期阶段:所有参与者在第二阶段(RL 阶段)的投入都相对较小。花费 100 万美元而非 10 万美元就足以获得巨大的收益。 公司们正在迅速行动,将第二阶段扩展至数亿乃至数十亿规模,但关键在于认识到我们正处于一个独特的“转折点”,这里有一个强大的新范式,正处于扩展曲线的早期阶段,因此能够迅速取得巨大进展。


图片


#02


DeepSeek 的模型


上述三种动态有助于我们理解深度求索(DeepSeek)近期的发布。大约一个月前,深度求索发布了一款名为“DeepSeek-V3”的模型,这是一个纯粹的预训练模型 ——即上述第三点中描述的第一阶段。接着,上周他们发布了“R1”,该模型增加了第二阶段。从外部无法完全确定这些模型的所有细节,但以下是我对这两次发布的最佳理解。


DeepSeek-V3 实际上是真正的创新,本应在一个月前就引起人们的注意(我们确实注意到了)。作为一个预训练模型,它在一些重要任务上的表现似乎接近美国最先进的模型,而训练成本却大大降低(尽管我们发现 Claude 3.5 Sonnet 在其他一些关键任务上,如现实世界编码,仍然表现更好)。DeepSeek 的团队通过一些真正令人印象深刻的创新实现了这一点,主要集中在工程效率上。在管理称为“键值缓存”的方面,以及在推动“专家混合”方法比以往更进一步方面,都有特别创新的改进。


然而,重要的是要更仔细地观察:


  • DeepSeek 并没有“以 600 万美元的成本完成美国 AI 公司花费数十亿美元的工作”。我只能代表 Anthropic 发言,但 Claude 3.5 Sonnet 是一个中等规模的模型,训练成本为数千万美元(我不会给出具体数字)。此外,3.5 Sonnet 的训练并未涉及任何更大或更昂贵的模型(与某些传言相反)。Sonnet 的训练是在 9-12 个月前进行的,而 DeepSeek 的模型是在 11 月/12 月训练的,但 Sonnet 在许多内部和外部评估中仍然显著领先。因此,我认为一个公正的说法是“DeepSeek 以更低的成本(但远非人们所建议的比例)生产了一个性能接近 7-10 个月前美国模型的模型”。

  • 如果成本曲线的历史下降趋势是每年约 4 倍,这意味着在正常的业务过程中——就像 2023 年和 2024 年发生的历史成本下降趋势一样——我们预计现在会有一个比 3.5 Sonnet/GPT-4o 便宜 3-4 倍的模型。由于 DeepSeek-V3 不如那些美国前沿模型——假设在扩展曲线上相差约 2 倍,我认为这对 DeepSeek-V3 来说已经相当慷慨了——这意味着如果 DeepSeek-V3 的训练成本比一年前开发的当前美国模型低约 8 倍,那将是完全正常的,完全“符合趋势”。我不会给出具体数字,但从之前的要点中可以清楚地看出,即使你按表面价值接受 DeepSeek 的训练成本,他们最多也只是符合趋势,甚至可能还达不到。例如,这比最初的 GPT-4 到 Claude 3.5 Sonnet 的推理价格差异(10 倍)要平缓,而 3.5 Sonnet 是一个比 GPT-4 更好的模型。所有这些都表明,DeepSeek-V3 并不是一个独特的突破,也不是从根本上改变LLM经济学的因素;它只是持续成本下降曲线上的一个预期点。 这次的不同之处在于,率先展示预期成本降低的公司是中国的。这种情况前所未有,且具有地缘政治意义。然而,美国公司很快也会跟进——他们不会通过模仿 DeepSeek 来实现这一点,而是因为他们同样在实现成本降低的常规趋势。

  • 深度求索(DeepSeek)与美国的人工智能公司相比,拥有更多的资金和芯片用于训练其核心模型。这些额外的芯片被用于研发,以探索模型背后的理念,有时也用于训练尚未成熟或需要多次尝试才能完善的大型模型。有报道称——我们无法确定其真实性——深度求索实际上拥有 50,000 个 Hopper 代芯片,我猜测这大约是美国主要人工智能公司所拥有芯片数量的 2-3 倍(例如,这比 xAI 的“巨像”集群少 2-3 倍)。这 50,000 个 Hopper 芯片的成本大约在 10 亿美元左右。因此,深度求索作为一家公司的总支出(与训练单个模型的支出不同)与美国的人工智能实验室相比,并没有显著差异。

  • 值得注意的是,“扩展曲线”分析有些过于简化,因为模型之间存在一定差异,各有优缺点;扩展曲线数字是一个粗略的平均值,忽略了许多细节。我只能就 Anthropic 的模型发表看法,但正如我上面所暗示的,Claude 在编码和与人类进行设计良好的互动风格方面表现得极为出色(许多人用它来寻求个人建议或支持)。在这些以及一些额外任务上,与 DeepSeek 相比,简直无法相提并论。这些因素并未体现在扩展数字中。

  • R1 是上周发布的模型,引发了公众的广泛关注(包括英伟达股价下跌约 17%),但从创新或工程角度来看,它远不如 V3 有趣。R1 增加了训练的第二阶段——强化学习,这在上一节的第 3 点中有所描述——基本上复制了 OpenAI 在 o1 上所做的(它们似乎在相似的规模上取得了相似的结果)。然而,由于我们处于扩展曲线的早期阶段,只要从强大的预训练模型出发,几家公司都有可能生产出这种类型的模型。在 V3 的基础上生产 R1 可能成本非常低。因此,我们正处于一个有趣的“交叉点”,暂时有几家公司能够生产出优秀的推理模型。随着各家公司在这些模型的扩展曲线上进一步推进,这种情况将迅速改变。


#03


出口管制


这一切只是我主要兴趣话题的序言:对中国的芯片出口管制。鉴于上述事实,我对形势的看法如下:


  • 当前存在一种趋势,即公司在训练强大的人工智能模型上投入越来越多,即便技术曲线周期性地推进,达到特定智能水平的模型训练成本迅速下降。这是因为训练越来越智能模型所带来的经济价值巨大,以至于任何成本节省几乎立刻被更大的投入所抵消——这些资金又被重新投入到以原本计划的高昂成本制造更智能的模型中。就美国实验室尚未发现这些效率创新而言,DeepSeek 开发的效率提升技术很快将被中美两国的实验室应用于训练价值数十亿美元的模型。这些模型的表现将优于他们原先计划训练的数十亿美元模型——但他们仍将花费数十亿美元。这一数字将持续上升,直至我们开发出在几乎所有方面都超越几乎所有人的 AI。

  • 制造出在几乎所有事情上都比几乎所有人类更聪明的人工智能,将需要数百万个芯片、数百亿美元(至少),并且最有可能在 2026-2027 年实现。DeepSeek 的发布并未改变这一点,因为它们大致处于预期的成本降低曲线上,这一曲线一直都被纳入这些计算之中。

  • 这意味着在 2026-2027 年,我们可能会面临两种截然不同的世界。在美国,多家公司将肯定拥有所需的数百万芯片(成本高达数百亿美元)。问题在于,中国是否也能获得数百万芯片。

  • 如果他们能做到,我们将生活在一个两极化的世界中,美国和中国都拥有强大的人工智能模型,这将推动科学技术的极速进步——我称之为“数据中心里的天才国家”。两极化的世界未必能长久保持平衡。即使美国和中国在人工智能系统上势均力敌,中国似乎更有可能将更多的人才、资金和注意力投入到该技术的军事应用中。结合其庞大的工业基础和军事战略优势,这可能帮助中国在全球舞台上取得主导地位,不仅限于人工智能,而是所有领域。

  • 如果中国无法获得数百万芯片,我们将(至少暂时)生活在一个单极世界中,只有美国及其盟友拥有这些模型。尚不清楚单极世界是否会持续,但至少存在一种可能性,即由于人工智能系统最终可以帮助制造更智能的人工智能系统,暂时的领先优势可能会转化为持久的优势。因此,在这个世界中,美国及其盟友可能会在全球舞台上取得主导地位并保持长期领先。

  • 严格执行的出口管制是唯一能阻止中国获取数百万芯片的手段,因此也是决定我们最终走向单极还是两极世界的最重要因素。

  • DeepSeek 的表现并不意味着出口管制失败。正如我上面所说,DeepSeek 拥有中等到大量的芯片,因此他们能够开发并训练出一个强大的模型并不令人惊讶。他们在资源上并没有比美国的人工智能公司受到更大的限制,出口管制也不是导致他们“创新”的主要因素。他们只是非常有才华的工程师,展示了为什么中国是美国的一个强劲竞争对手。

  • DeepSeek 也没有表明中国总能通过走私获得所需的芯片,或者管制总是存在漏洞。我不相信出口管制是为了阻止中国获得几万枚芯片而设计的。10 亿美元的经济活动可以隐藏,但 1000 亿美元甚至 100 亿美元则难以隐藏。一百万枚芯片在物理上也可能难以走私。看看 DeepSeek 目前据称拥有的芯片也很有启发。根据 SemiAnalysis 的数据,这些芯片包括 H100、H800 和 H20,总计 5 万枚。H100 自发布以来就被出口管制禁止,因此如果 DeepSeek 拥有这些芯片,它们一定是通过走私获得的(请注意,英伟达表示 DeepSeek 的进展“完全符合出口管制”)。H800 在 2022 年第一轮出口管制中是允许的,但在 2023 年 10 月管制更新后被禁止,因此这些芯片可能是在禁令之前发货的。H20 在训练方面效率较低,但在采样方面效率更高——目前仍然允许,尽管我认为它们应该被禁止。 这一切都表明,DeepSeek 的 AI 芯片舰队中,有很大一部分由未被禁运(但本应被禁)的芯片、在禁运前发货的芯片以及一些极有可能是走私而来的芯片组成。这显示出出口管制实际上在发挥作用并不断调整:漏洞正在被堵上;否则,他们很可能已经拥有一支全由顶级 H100 芯片组成的舰队。如果我们能足够迅速地堵上这些漏洞,或许就能阻止中国获取数百万芯片,从而增加美国领先的单极世界的可能性。


鉴于我对出口管制和美国国家安全的关注,我想明确一点。我并不将 DeepSeek 本身视为对手,重点也不是特别针对他们。在他们所做的采访中,他们看起来像是聪明、好奇的研究者,只是希望开发有用的技术。


 END

公众号最近更改了推送规则,不再按时间顺序推送,而是根据人工智能算法有选择性向用户推送,有可能以后你无法看到赖博士的文章推送了。


解决方法是将《赖博士说》的公众号“星标”,顺手点下文末右下角的“在看”,系统会默认我们公众号的文章符合你的喜好,以后赖博士的文章就会在第一时间推送到你面前。

图片
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部