客户端
游戏
无障碍

0

评论

收藏

分享

手机看

微信扫一扫,随时随地看

中国的平价开源AI模型DeepSeek惊艳全球科学家


图片

图片来源:DeepSeek


DeepSeek-R1在推理任务中的表现媲美OpenAI的o1——而且开放给研究人员研究。


原文作者|Elizabeth Gibney

来源|自然系列(id:nature-portfolio)


日前,来自中国的大语言模型DeepSeek-R1震动了整个科学圈,对于OpenAI的o1一类的“推理”模型来说,这个负担得起的开源模型成了它们的竞争对手。


这类模型能以类似人类推理的过程生成逐步式回答。这使得这些模型比之前的语言模型更擅长解决科学问题,并有望在科研中发挥作用。1月20日发布的对R1的初步测试显示,其在特定化学、数学和代码任务上的表现与o1不相上下,OpenAI去年9月发布的o1曾令科研人员赞叹不已。


“这太疯狂了,完全出乎意料,”英国AI咨询公司DAIR.AI的联合创始人、AI研究员Elvis Saravia 在X上写道。


R1令人赞叹的原因还有一个。构建该模型的DeepSeek(深度求索)是杭州的一家初创公司,该公司以“open-weight”的形式发布了该模型,open-weight允许科研人员研究并继续构建这个算法。这个模型使用MIT许可证,能免费重复使用,但不属于完全开源,因为其训练数据并未公开。


DeepSeek的开源很了不起,”德国马克斯·普朗克光学研究所Artificial Scientist Lab负责人Mario Krenn称赞道。相比之下,他说,旧金山的OpenAI构建的o1等模型,包括其最新的o3,“基本上都是黑箱”。


DeepSeek还没有公布训练R1的总成本,但使用其界面的用户只需支付使用o1 的1/30。这家公司还创建了R1的“蒸馏”迷你模型,让算力有限的研究人员也能上手。“在o1上要花300多英镑的一个实验,用R1只要不到10美元,”Krenn说,“这种巨大差异肯定会影响模型的未来采用。”



挑战模型


R1是中国大语言模型(LLM)崛起的一个缩影。DeepSeek脱胎于一家对冲基金公司,上个月横空出世发布了名为V3的对话机器人——该机器人虽然预算不高,但成功打败了几大主要对手。专家估计,它大概花了600万美元租借训练模型的硬件,而Meta的Llama 3.1 405B至少花了6000万美元,使用的计算资源为前者的11倍。


关于DeepSeek的热议还包括:R1诞生于美国对中国公司的出口管制之下——美国禁止中国获得当前最好的AI处理计算芯片。“R1来自中国的事实表明,有效利用现有资源比只关注计算规模更重要。”西雅图的AI研究员François Chollet说道。


DeepSeek的进展说明,“大家以为的美国领先优势已经大大缩小,”华盛顿的技术专家、台湾沉浸式科技公司宏达电(HTC)的Alvin Wang Graylin在X上写道,“中美两国应该联手打造先进AI,而不是继续没有赢家的装备竞赛。



思维链


大语言模型的训练需要使用数以十亿计的文本,将它们拆分成字词单元的 “token”,并学习数据中的模式。这些关联让大语言模型能预测一句话中接下来会出现的token。但大语言模型很容易发明事实,这种现象被称为“幻觉”(hallucination),而且往往难以对问题进行推理。


和o1一样,R1使用“思维链”方法提升大语言模型解决更复杂任务的能力,包括有时能回溯和评估其方法。DeepSeek利用强化学习通过“微调”V3构建了R1——即在模型获得正确答案并概述其解决问题的“思考”方式时进行奖励。


图片

来源:DeepSeek

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部