雷军挖“天才少女”？AI圈90后扎堆

财经网科技

2024-12-31 18:50发布于北京财经网科技频道官方账号

编辑|易瑾

近日，中国头部量化私募公司幻方量化旗下专注于AI大模型研究开发的Deepseek宣布旗下的全新系列模型DeepSeek-V3首个版本上线并同步开源。一经上线便迅速在AI行业引起广泛关注和热议，主要原因是价格低，其训练同样性能的大模型成本仅是行业主流的十分之一左右，被称为“AI界的拼多多”。

与DeepSeek一起进入大家视野的，是95后AI“天才少女”罗福莉。她曾在DeepSeek参与了DeepSeek-V2的研发，是这款模型的关键开发者之一。在DeepSeek-V3发布前几天，媒体报道称小米创始人雷军已开出千万年薪，将罗福莉招至麾下，罗福莉将就职于小米AI实验室，领导大模型团队。截至发稿，小米并未公开回应此事。

值得注意的是，在大模型掀起的这股创业热潮中，不少90后正在成为核心人物。比如90后杨植麟在2023年4月成立的月之暗面估值超200亿元，出生于90年的王兴兴创立了宇树科技，近日发布机器狗产品B2-W引起全球关注被马斯克点赞，AI视频生成软件Pika的创始人郭文景也是90后代表……他们所在的企业或者创办的公司正在成为业内的独角兽，也正在成为创投圈里“抢手”的企业。

Deepseek和罗福莉出圈

“来自东方的一股神秘力量”“AI界的拼多多”“价格屠夫”这是社交平台上网友们给Deepseek贴的标签。近日，这家公司再次在行业内刷屏，引起热议的原因是新模型DeepSeek-V3预训练成本之低。

据介绍DeepSeek-V3参数量高达671B，在预训练阶段仅使用2048块GPU训练了2个月，且只花费557.6万美元，其训练费用相比GPT-4等大模型要少得多，据外媒估计，Meta的大模型Llama-3.1的训练投资超过了5亿美元。

OpenAI创始成员Karpathy对此感叹：“DeepSeek-V3让在有限算力预算上进行模型预训练变得容易。DeepSeek-V3看起来比Llama-3-405B更强，训练消耗的算力却仅为后者的1/11。”

值得注意的是，在今年上半年“百模大战”打得激烈时，也是这家公司将推出DeepSeekV2的开源模型，推理成本被降到每百万token仅1块钱，据介绍，该模型在性能上比肩GPT-4Turbo，价格却只有GPT-4的仅1%，而后大模型圈迅速掀起一轮“价格战”，其中不乏独角兽企业智谱AI以及阿里、字节、百度等大厂。

智谱AI最新跟进宣布入门级产品GLM-3Turbo模型的调用价格也从5元/百万tokens降至1元/百万tokens，而后5月15日，字节发布豆包大模型，其主力模型的定价为输入0.0008元/千tokens，当时声称较行业便宜99.3%。

接着阿里云宣布，通义千问对标ChatGPT-4的主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。百度随之公告，文心大模型的两款入门级主力模型ENIRESpeed、ENIRELite全面免费。

“我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。”在回应当初为何打响大模型价格战第一枪时，DeepSeek创始人梁文锋对媒体表示。

在DeepSeek-V3刷屏之际，有一个bug也引发热议。有用户在对话框中询问“你是什么模型”时，它给出了一个令人诧异的回答：“我是一个名为ChatGPT的AI语言模型，由OpenAl开发。”

对此，OpenAI联合创始人、首席执行官SamAltman发帖文表示：“复制容易，创新很难。”外媒指出，Altman这篇帖文意在暗讽其竞争对手对OpenAI数据的挖掘。

在Deepseek受到热议的同时，DeepSeek-V2的关键开发者之一罗福莉也成为焦点。公开资料显示，罗福莉硕士毕业于北京大学计算语言学研究所。此后她加入了阿里达摩院机器智能实验室，其间主导开发了多语言预训练模型VECO以及AliceMind的开源工作。2022年，罗福莉从阿里离开，进入DeepSeek担任深度学习研究员，参与了MoE大模型DeepSeek-V2的开发。

今年5月，在DeepSeek-V2发布以后，罗福莉在知乎上撰文，发表了对于DeepSeek-V2的看法。她表示，“单论DeepSeek-V2模型的中文水平，是真实处在国内外闭源模型的第一梯队”“外加1元/百万输入Tokens的价格，只有GPT4价格的1/100，性价比之王”。

12月20日，据媒体报道，罗福莉将加入小米，她或供职于小米AI实验室，领导小米大模型团队。知情人士透露，雷军对小米在大模型领域发力太晚感到担忧，于是亲自下场挖人，罗福莉的薪酬水平或在千万元级别。

目前小米暂未公开回应这一消息，不过和罗福莉一样的90后，正在成为AI圈的中坚力量，他们成为大厂争相抢夺的人才，另外也有不少95后、00后创业者，带着自家的企业闯入AI圈，成为明星企业之一。

90后挤满AI圈

今年以来，多次登上微博热搜榜的是大模型公司除了百度文心一言、OpenAI的ChatGPT以外，一些新锐公司也屡次上榜，如月之暗面、Pika等，这两家公司背后的创始人也都是90后。

#95后高颜值天才少女再获5.8亿融资#的话题，在年中登顶微博热搜，话题中的“天才少女”则是被哈佛面试官称为“近乎完美”的95后郭文景。现在的郭文景被广为人知的身份还有一个——Pika联合创始人兼首席执行官。Pika成立于2023年4月，是一家文生视频的创业公司。

近日，Pika推出了新版视频生成模型Pika2.0。Pika2.0的最大亮点是其卓越的可定制性。新推出的“场景配料”功能，允许用户上传和自定义角色、物体和场景等各个元素。通过先进的图像识别技术，这些元素能够完美地融入场景中，让创作者能够更精细地控制内容。在技术层面，Pika2.0在文本对齐和运动渲染方面都实现了新突破。

在投资圈，Pika也备受关注，2023年11月底，Pika1.0带着一段马斯克穿着太空服飞上天的视频demo大火出圈，那时团队仅有四人，公司成立不到半年时间就完成3轮融资，共计5500万美元，估值升至2.5亿美元。

再到2024年6月5日，Pika宣布已完成总额8000万美元的B轮融资，本轮由SparkCapital领投，Greycroft、LightspeedVenturePartners以及JaredLeto参投，公司估值超过4.7亿美元，比上一轮翻了一倍。

与郭文景一样受到广泛关注的90后创始人还有月之暗面的杨植麟，公开资料显示，2016年杨植麟曾联合创立了人工智能公司循环公司，2021年杨植麟成为清华大学交叉信息研究院的助理教授。同年他还参与了超大规模智能模型“悟道”的开发。2021年，28岁的杨植麟带领循环智能与华为云联合开发了盘古NLP大模型，当时是业界首个千亿参数的中文大模型。2023年，30岁的杨植麟创办了自己的第二家公司：月之暗面。

作为大模型六虎之一，月之暗面今年2月完成新一轮超10亿美元融资，估值达到25亿美元。再到今年8月，有消息称，腾讯参与国内大模型独角兽、Kimi智能助手开发公司月之暗面最新一轮3亿美元融资，这使得该公司估值提升至33亿美元。

在今年5月的财报中，阿里披露2024财年向月之暗面投资合共约8亿美元，约购入36%股权。而这8亿美元并非全是现金，其中部分是以阿里云提供的算力来结算，实际出资金额不到6亿美元。

加拿大工程院外籍院士、智象未来创始人兼CEO梅涛在回顾过去一年人工智能的发展情况时，提到了五个标志性事件：首先Sora的出现标志着视觉生成领域取得了重大突破；其次GPT-4o的发布体现大语言模型从单一模态向多模态的跨越；紧接着GPT-o1的推出让大家的关注点从大规模预训练转向推理优化；大模型技术正在促进具身智能快速发展，以及AI正在成为推动科学研究进步的重要力量之一。

在具身智能领域，也涌现出了一批90后创业者。比如宇树科技的王兴兴、星动纪元的陈建宇、智元机器人的彭志辉。

在今年10月，诞生于清华的具身智能公司“星动纪元”完成近3亿元Pre-A融资。本轮融资亦是星动纪元自2023年8月成立1年以来完成的第三轮融资，此前星动纪元连续完成了由联想创投领投，金鼎资本、泽羽资本、清控天诚跟投，老股东世纪金源超额追投的超亿元天使轮融资，以及由世纪金源领投，图灵创投跟投的数千万元种子轮融资。

宇树创始人王兴兴是一位90后创业者，在2013年到2015年硕士研究生阶段，王兴兴从底层电机驱动板、整机机械结构到整机运动控制算法等，开发了一款四足机器人XDog，不同于当时波士顿动力机器人的高成本液压驱动技术路线，XDog采用了高性能纯电驱动，也开创了全球低成本高性能足式机器人技术方案的先河。

12月23日宇树发布了B2-W机器狗视频，展示了其量产一年后解锁的众多令人惊叹的新技能，如托马斯全旋、侧空翻等高难度动作，还能在近乎90度的山坡、森林、水里行走、弹跳自如，甚至可以负载40公斤重物前进爬坡，获得了海内外网友的点赞，甚至引爆了二级市场，包括长盛轴承、景兴纸业等多只个股一度涨停。

在2024福布斯中国30Under30榜单中，也可以看到有12人的创业方向与人工智能息息相关。可见大模型的竞争，也逐渐向人才之争辐射。

综合自证券时报、科创板日报等‍‍‍‍

查看原图 44K