客户端
游戏
无障碍

0

评论

1

2

手机看

微信扫一扫,随时随地看

360 联合北大发布:低成本实现 DeepSeek 级 AI 性能

AI划重点 · 全文约1282字,阅读需4分钟

1.360联合北大发布低成本实现DeepSeek级AI性能的Tiny-R1-32B-Preview模型。

2.该模型仅使用了Deepseek R1 5%的参数,但在数学、编程和科学方面的表现优于70B R1模型。

3.为此,Tiny-R1-32B-Preview团队采用“分合”蒸馏技术,先培养三位专家,再融合他们的知识。

4.数据集和训练成本均较低,仅使用4台H800(32卡),1天时间,约一万五千块钱。

5.360CEO周鸿祎强调AI普及化,推出低成本大幅提高模型能力的Tiny-R1模型。

以上内容由腾讯混元大模型生成,仅供参考

Deepseek R1 发布之后带动了强化学习和推理模型的研发爆发性增长,最近刷 Huggingface 的时候看到一个叫 Tiny-R1-32B-Preview的模型。 

宣称只用了 Deepseek R1 5% 的参数就在某些能力上实现了相似的性能

看了一下模型卡,居然还是 360 和北大一起训练的。 

图片

比如数学上的 AIME 测试得分达到了 78.1 分,远超 Deepseek R1 自己的蒸馏的 70B R1 模型,接近了完整的671B R1 了,在编程(LiveCodeBench 61.6分)、科学(GPQA-Diamond 65.0分)也比 70B 的 R1 要高。 

当然这些测试只是测试,无法证明全面超过了完整的 671B R1 模型,不过用 32B 这么小的参数,在测试上比 70B 模型高还是很强的。 

 

仔细看了一下他们的训练方式和过程,真的挺绝的。 

首先他们用的基座模型就是 Deepseek R1 自己蒸馏的那个 32B 模型,相当于已经继承了一些 R1 的能力。 

他们要做的就是在这个基础上继续提升模型的数学代码和科学研发能力。 

我们在传统的模型训练中想让模型在多个领域都表现出色时,会出现"此长彼消"的跷跷板效应。 

解释一下就是针对数学、代码、科学分别训练,可以快速提升指标,但如果直接混合所有数据一起训练,模型往往会在各方面都变得平庸。 

他们用了一种“分合”蒸馏技术来解决这个问题。 

不是尝试训练一个"全才",而是先培养三位"专家",再融合他们的知识。 

在训练完三个单项能力后,融合阶段使用一个开源的工具,对三个单项模型的参数进行融合。 

就像让三个学科专家(数学专家、编程专家、科学专家)把自己的知识合并到一个大脑中。 

图片

行业上这段时间主要针对 R1 的研究做的都是在复现 Deepseek 的训练方式,比如比较知名的李飞飞团队的 S1 模型。 

Tiny-R1-32B-Preview 团队没有去作为跟随者去复现这个工作,而是另辟蹊径尝试做一个引领者,去提升已经蒸馏过的R1 32B模型的上限能力 

最后在数学/代码/科学指标上取得了目前开源32B中最优的效果。 

而且数据还全用的的开源的数据集,成本也低的离谱,一共只用了使用4台H800(总共32卡),1天时间,大概一万五千块钱。 

 

刚好 360 的周鸿祎前几天被邀请去清华做了一次演讲。 

里面反复提到了 “AI 普及化”,解释了为什么效率对于 AI 普及至关重要:更小的模型意味着更低的计算成本、更低的硬件门槛、更容易部署到各种设备上,从而真正让 AI 技术走向大众。  

360 Tiny-R1 这类低成本大幅提高模型能力的方式也印证了他关于 “AI 普及化”的想法。 

另外在这次分享中他主要是面向政企和创业者,如何在政府、企业应用,重点是需要和场景结合,如何创建企业知识库和 Agents 辅助企业管理和提效。 

整个演讲的内容非常丰富,可以帮助企业管理者建立对 DeepSeek 影响的基础认知以及启发如何在管理上应用。 

图片

 

纳米 AI 搜索也一直在贯彻周鸿祎在这次 AI 革命中的“AI 普及化”核心观点。 

之前就免费提供了所有国内的主流 AI 模型,Deepseek R1 出来之后更是在第一时间接入了满血版,而且免费提供。 

中国软件评测中心人工智能部选择十余家国内外服务的厂商的 Deepseek R1开展了全面评测,纳米AI搜索也表现优秀。 

图片

市场对周鸿祎精准判断和敏锐嗅觉给予了丰厚回报,纳米AI搜索近期用户量呈现惊人增长态势。

用户关注的核心在于性价比最高的产品,他们追求的是最经济(最好免费)且最优质的服务。 

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部