雷军挖“天才少女”?AI圈90后扎堆

图片


编辑|易瑾



近日,中国头部量化私募公司幻方量化旗下专注于AI大模型研究开发的Deepseek宣布旗下的全新系列模型DeepSeek-V3首个版本上线并同步开源。一经上线便迅速在AI行业引起广泛关注和热议,主要原因是价格低,其训练同样性能的大模型成本仅是行业主流的十分之一左右,被称为“AI界的拼多多”。


与DeepSeek一起进入大家视野的,是95后AI“天才少女”罗福莉。她曾在DeepSeek参与了DeepSeek-V2的研发,是这款模型的关键开发者之一。在DeepSeek-V3发布前几天,媒体报道称小米创始人雷军已开出千万年薪,将罗福莉招至麾下,罗福莉将就职于小米AI实验室,领导大模型团队。截至发稿,小米并未公开回应此事。


值得注意的是,在大模型掀起的这股创业热潮中,不少90后正在成为核心人物。比如90后杨植麟在2023年4月成立的月之暗面估值超200亿元,出生于90年的王兴兴创立了宇树科技,近日发布机器狗产品B2-W引起全球关注被马斯克点赞,AI视频生成软件Pika的创始人郭文景也是90后代表……他们所在的企业或者创办的公司正在成为业内的独角兽,也正在成为创投圈里“抢手”的企业。



Deepseek和罗福莉出圈


“来自东方的一股神秘力量”“AI界的拼多多”“价格屠夫”这是社交平台上网友们给Deepseek贴的标签。近日,这家公司再次在行业内刷屏,引起热议的原因是新模型DeepSeek-V3预训练成本之低。


据介绍DeepSeek-V3参数量高达671B,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元,其训练费用相比GPT-4等大模型要少得多,据外媒估计,Meta的大模型Llama-3.1的训练投资超过了5亿美元。


OpenAI创始成员Karpathy对此感叹:“DeepSeek-V3让在有限算力预算上进行模型预训练变得容易。DeepSeek-V3看起来比Llama-3-405B更强,训练消耗的算力却仅为后者的1/11。”


值得注意的是,在今年上半年“百模大战”打得激烈时,也是这家公司将推出DeepSeekV2的开源模型,推理成本被降到每百万token仅1块钱,据介绍,该模型在性能上比肩GPT-4Turbo,价格却只有GPT-4的仅1%,而后大模型圈迅速掀起一轮“价格战”,其中不乏独角兽企业智谱AI以及阿里、字节、百度等大厂。


智谱AI最新跟进宣布入门级产品GLM-3Turbo模型的调用价格也从5元/百万tokens降至1元/百万tokens,而后5月15日,字节发布豆包大模型,其主力模型的定价为输入0.0008元/千tokens,当时声称较行业便宜99.3%。


接着阿里云宣布,通义千问对标ChatGPT-4的主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。百度随之公告,文心大模型的两款入门级主力模型ENIRESpeed、ENIRELite全面免费。


“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”在回应当初为何打响大模型价格战第一枪时,DeepSeek创始人梁文锋对媒体表示。


在DeepSeek-V3刷屏之际,有一个bug也引发热议。有用户在对话框中询问“你是什么模型”时,它给出了一个令人诧异的回答:“我是一个名为ChatGPT的AI语言模型,由OpenAl开发。”


对此,OpenAI联合创始人、首席执行官SamAltman发帖文表示:“复制容易,创新很难。”外媒指出,Altman这篇帖文意在暗讽其竞争对手对OpenAI数据的挖掘。


在Deepseek受到热议的同时,DeepSeek-V2的关键开发者之一罗福莉也成为焦点。公开资料显示,罗福莉硕士毕业于北京大学计算语言学研究所。此后她加入了阿里达摩院机器智能实验室,其间主导开发了多语言预训练模型VECO以及AliceMind的开源工作。2022年,罗福莉从阿里离开,进入DeepSeek担任深度学习研究员,参与了MoE大模型DeepSeek-V2的开发。


今年5月,在DeepSeek-V2发布以后,罗福莉在知乎上撰文,发表了对于DeepSeek-V2的看法。她表示,“单论DeepSeek-V2模型的中文水平,是真实处在国内外闭源模型的第一梯队”“外加1元/百万输入Tokens的价格,只有GPT4价格的1/100,性价比之王”。


12月20日,据媒体报道,罗福莉将加入小米,她或供职于小米AI实验室,领导小米大模型团队。知情人士透露,雷军对小米在大模型领域发力太晚感到担忧,于是亲自下场挖人,罗福莉的薪酬水平或在千万元级别。


目前小米暂未公开回应这一消息,不过和罗福莉一样的90后,正在成为AI圈的中坚力量,他们成为大厂争相抢夺的人才,另外也有不少95后、00后创业者,带着自家的企业闯入AI圈,成为明星企业之一。


90后挤满AI圈


今年以来,多次登上微博热搜榜的是大模型公司除了百度文心一言、OpenAI的ChatGPT以外,一些新锐公司也屡次上榜,如月之暗面、Pika等,这两家公司背后的创始人也都是90后。


#95后高颜值天才少女再获5.8亿融资#的话题,在年中登顶微博热搜,话题中的“天才少女”则是被哈佛面试官称为“近乎完美”的95后郭文景。现在的郭文景被广为人知的身份还有一个——Pika联合创始人兼首席执行官。Pika成立于2023年4月,是一家文生视频的创业公司。


近日,Pika推出了新版视频生成模型Pika2.0。Pika2.0的最大亮点是其卓越的可定制性。新推出的“场景配料”功能,允许用户上传和自定义角色、物体和场景等各个元素。通过先进的图像识别技术,这些元素能够完美地融入场景中,让创作者能够更精细地控制内容。在技术层面,Pika2.0在文本对齐和运动渲染方面都实现了新突破。


在投资圈,Pika也备受关注,2023年11月底,Pika1.0带着一段马斯克穿着太空服飞上天的视频demo大火出圈,那时团队仅有四人,公司成立不到半年时间就完成3轮融资,共计5500万美元,估值升至2.5亿美元。


再到2024年6月5日,Pika宣布已完成总额8000万美元的B轮融资,本轮由SparkCapital领投,Greycroft、LightspeedVenturePartners以及JaredLeto参投,公司估值超过4.7亿美元,比上一轮翻了一倍。


与郭文景一样受到广泛关注的90后创始人还有月之暗面的杨植麟,公开资料显示,2016年杨植麟曾联合创立了人工智能公司循环公司,2021年杨植麟成为清华大学交叉信息研究院的助理教授。同年他还参与了超大规模智能模型“悟道”的开发。2021年,28岁的杨植麟带领循环智能与华为云联合开发了盘古NLP大模型,当时是业界首个千亿参数的中文大模型。2023年,30岁的杨植麟创办了自己的第二家公司:月之暗面。


作为大模型六虎之一,月之暗面今年2月完成新一轮超10亿美元融资,估值达到25亿美元。再到今年8月,有消息称,腾讯参与国内大模型独角兽、Kimi智能助手开发公司月之暗面最新一轮3亿美元融资,这使得该公司估值提升至33亿美元。


在今年5月的财报中,阿里披露2024财年向月之暗面投资合共约8亿美元,约购入36%股权。而这8亿美元并非全是现金,其中部分是以阿里云提供的算力来结算,实际出资金额不到6亿美元。


加拿大工程院外籍院士、智象未来创始人兼CEO梅涛在回顾过去一年人工智能的发展情况时,提到了五个标志性事件:首先Sora的出现标志着视觉生成领域取得了重大突破;其次GPT-4o的发布体现大语言模型从单一模态向多模态的跨越;紧接着GPT-o1的推出让大家的关注点从大规模预训练转向推理优化;大模型技术正在促进具身智能快速发展,以及AI正在成为推动科学研究进步的重要力量之一。


在具身智能领域,也涌现出了一批90后创业者。比如宇树科技的王兴兴、星动纪元的陈建宇、智元机器人的彭志辉。


在今年10月,诞生于清华的具身智能公司“星动纪元”完成近3亿元Pre-A融资。本轮融资亦是星动纪元自2023年8月成立1年以来完成的第三轮融资,此前星动纪元连续完成了由联想创投领投,金鼎资本、泽羽资本、清控天诚跟投,老股东世纪金源超额追投的超亿元天使轮融资,以及由世纪金源领投,图灵创投跟投的数千万元种子轮融资。


宇树创始人王兴兴是一位90后创业者,在2013年到2015年硕士研究生阶段,王兴兴从底层电机驱动板、整机机械结构到整机运动控制算法等,开发了一款四足机器人XDog,不同于当时波士顿动力机器人的高成本液压驱动技术路线,XDog采用了高性能纯电驱动,也开创了全球低成本高性能足式机器人技术方案的先河。


12月23日宇树发布了B2-W机器狗视频,展示了其量产一年后解锁的众多令人惊叹的新技能,如托马斯全旋、侧空翻等高难度动作,还能在近乎90度的山坡、森林、水里行走、弹跳自如,甚至可以负载40公斤重物前进爬坡,获得了海内外网友的点赞,甚至引爆了二级市场,包括长盛轴承、景兴纸业等多只个股一度涨停。


在2024福布斯中国30Under30榜单中,也可以看到有12人的创业方向与人工智能息息相关。可见大模型的竞争,也逐渐向人才之争辐射。


综合自证券时报、科创板日报等