中国的平价开源AI模型DeepSeek惊艳全球科学家

环球科学

2025-01-31 20:00

+关注

图片来源：DeepSeek

‍

DeepSeek-R1在推理任务中的表现媲美OpenAI的o1——而且开放给研究人员研究。

原文作者｜Elizabeth Gibney

来源｜自然系列（id：nature-portfolio）

日前，来自中国的大语言模型DeepSeek-R1震动了整个科学圈，对于OpenAI的o1一类的“推理”模型来说，这个负担得起的开源模型成了它们的竞争对手。

这类模型能以类似人类推理的过程生成逐步式回答。这使得这些模型比之前的语言模型更擅长解决科学问题，并有望在科研中发挥作用。1月20日发布的对R1的初步测试显示，其在特定化学、数学和代码任务上的表现与o1不相上下，OpenAI去年9月发布的o1曾令科研人员赞叹不已。

“这太疯狂了，完全出乎意料，”英国AI咨询公司DAIR.AI的联合创始人、AI研究员Elvis Saravia 在X上写道。

R1令人赞叹的原因还有一个。构建该模型的DeepSeek（深度求索）是杭州的一家初创公司，该公司以“open-weight”的形式发布了该模型，open-weight允许科研人员研究并继续构建这个算法。这个模型使用MIT许可证，能免费重复使用，但不属于完全开源，因为其训练数据并未公开。

“DeepSeek的开源很了不起，”德国马克斯·普朗克光学研究所Artificial Scientist Lab负责人Mario Krenn称赞道。相比之下，他说，旧金山的OpenAI构建的o1等模型，包括其最新的o3，“基本上都是黑箱”。

DeepSeek还没有公布训练R1的总成本，但使用其界面的用户只需支付使用o1 的1/30。这家公司还创建了R1的“蒸馏”迷你模型，让算力有限的研究人员也能上手。“在o1上要花300多英镑的一个实验，用R1只要不到10美元，”Krenn说，“这种巨大差异肯定会影响模型的未来采用。”

挑战模型

R1是中国大语言模型（LLM）崛起的一个缩影。DeepSeek脱胎于一家对冲基金公司，上个月横空出世发布了名为V3的对话机器人——该机器人虽然预算不高，但成功打败了几大主要对手。专家估计，它大概花了600万美元租借训练模型的硬件，而Meta的Llama 3.1 405B至少花了6000万美元，使用的计算资源为前者的11倍。

关于DeepSeek的热议还包括：R1诞生于美国对中国公司的出口管制之下——美国禁止中国获得当前最好的AI处理计算芯片。“R1来自中国的事实表明，有效利用现有资源比只关注计算规模更重要。”西雅图的AI研究员François Chollet说道。

DeepSeek的进展说明，“大家以为的美国领先优势已经大大缩小，”华盛顿的技术专家、台湾沉浸式科技公司宏达电（HTC）的Alvin Wang Graylin在X上写道，“中美两国应该联手打造先进AI，而不是继续没有赢家的装备竞赛。”

思维链‍

大语言模型的训练需要使用数以十亿计的文本，将它们拆分成字词单元的 “token”，并学习数据中的模式。这些关联让大语言模型能预测一句话中接下来会出现的token。但大语言模型很容易发明事实，这种现象被称为“幻觉”（hallucination），而且往往难以对问题进行推理。

和o1一样，R1使用“思维链”方法提升大语言模型解决更复杂任务的能力，包括有时能回溯和评估其方法。DeepSeek利用强化学习通过“微调”V3构建了R1——即在模型获得正确答案并概述其解决问题的“思考”方式时进行奖励。

来源：DeepSeek

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。