1.中国AI公司DeepSeek发布最新大模型DeepSeek-V3,性能惊艳,价格低廉,引发国内外关注。
2.DeepSeek-V3采用多头潜在注意力(MoE)和深寻求(MoE)架构,实现高效推理和经济高效训练。
3.除此之外,DeepSeek还采用无辅助损失的负载平衡策略和多令牌预测训练目标,进一步提高模型性能。
4.尽管DeepSeek的创新并非颠覆性,但在资源限制下,成功地将大模型从0到1,展现了工程实力。
以上内容由腾讯混元大模型生成,仅供参考
“欸,那个前几天很火的DeepSeek居然出APP了。”
一搜,还真有。
真低调。
可低调的背后,是一口气刷了中国的屏,还刷了美国的屏的爆火。
2025刚开始那几天,国内突然出了个热搜:
“雷军千万年薪,挖角DeepSeek的核心研究员,95后AI天才少女罗福莉”。
很多人在这句话里,看到了“雷军”,看到了“千万年薪”,看到了“95后AI天才少女”。但其中很多关注AI的人,还看到了:“DeepSeek”。
这得益于采用了 Multi-head Latent Attention ( MLA ) 和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。又引入了辅助损失自由负载平衡策略和多 token 预测训练目标,提升了模型性能。同时,在14.8万亿个高质量 token上进行了预训练时,通过监督微调和强化学习阶段充分挖掘了其潜力。
*个人观点,仅供参考。
主笔 / 尤安 编辑 / 二蔓 版面 / 黄静
查看原图 7K