英伟达AI科学家Jim Fan 2024年盘点(全文):DeepSeek是开源LLMs领域最大黑马

就在昨天,英伟达高级AI研究科学家Jim Fan在X上发布了年终推文。
他从机器人硬件、具身人工智能(机器人的大脑)、计算硬件、视频生成与世界建模、大语言模型(LLMs)、人工智能助力科学6个章节进行了年终盘点。
Jim Fan以一个既是亲历者又是引领者的视角,为我们展现了2024年AI领域的重大突破。

以下为其推文全文转译:



再提一次人工智能(AI),我们就要彻底告别2024年了。这一年真是跌宕起伏。这一年就像一个扩散模型——我们看着曾经的科幻想象逐渐清晰并成为现实。所以,让我们来庆祝一下——每人一句话,速战速决。准备好了吗?


共6章:机器人硬件、具身人工智能(机器人的大脑)、计算硬件、视频生成与世界建模、大语言模型(LLMs)、人工智能助力科学。

第1章 机器人硬件

我们是最后一代没有被先进机器人随处包围的人。未来,一切可移动的东西都将实现自动化。

1) 高端仿人机器人的崛起:这个世界是为我们人类构建的。所有的设施、电器和工具都是围绕我们的外形尺寸设计的。

- 特斯拉擎天柱(Tesla Optimus):很少有仿人机器人公司有勇气在户外进行现场互动演示。特斯拉在“我们,机器人”活动中做到了这一点。第三代手部有22个自由度,处于行业领先地位;

- 1X Neo:一款适合家庭使用的友好型仿人机器人,目标是在家庭中大规模部署;

- 波士顿动力e-Atlas:重型机器人领域的佼佼者,360度关节能做出一些超厉害的体操动作;

- Figure:从原型机到汽车工厂部署,迭代速度极快;

- 傅利叶智能(Fourier Intelligence):GR - 1机器人是少数实现大规模生产(数千台)并销往全球的机器人之一;

- Clone:采用类似《西部世界》风格设计的仿生肌肉和肌腱,为仿人机器人的实现提供了全新视角。

还有许多其他仿人机器人如雨后春笋般涌现,多得数都数不过来。

2) 廉价机器人硬件的兴起:价格比汽车还便宜,可扩展性强,在不久的将来,大多数中产阶级都能买得起。

- 宇树科技(Unitree)G1仿人机器人:售价约4万美元,重77磅,高50英寸。体型虽小,但灵活性很强;

- 宇树科技B2 - W:一款带4个轮子的机器狗,机动性超过地球上的大多数动物;

- ALOHA:一款极其便宜的斯坦福大学开源机器人,配备2个夹爪。可以通过远程操作来完成煎蛋或叠衣服等复杂动作。

3) 苹果Vision Pro:作为数据采集设备在机器人领域发挥着有趣的作用。它能实时解析头部和手部姿势,并控制机器人模仿相应动作。

第2章 具身人工智能(机器人的大脑)

这里要给自己打个小广告,因为这是我的专业领域 ;)

1) 特斯拉全自动驾驶(FSD)v12:史上最大的物理人工智能数据飞轮,被压缩成一个强大的从感知到行动的神经网络。这是在长达十年的自动驾驶问题上的一次范式转变。

2) 英伟达推出GR00T项目,这是一项极具挑战性的计划,旨在为通用机器人打造人工智能大脑。黄仁勋在SAP中心登台时,身后就有10台仿人机器人。

3) HOVER:我们团队训练了一个包含150万个参数的基础模型,该模型学会了如何协调仿人机器人的电机运动,捕捉到了我们小脑每毫秒都在进行的“潜意识处理”过程。

4) DrEureka:我们团队训练了一只机器狗,让它仅在模拟环境中就能在瑜伽球上保持平衡并行走,然后能零样本迁移到真实硬件上。大语言模型会自动编写奖励函数并调整参数,这样我们一边看网飞(Netflix)一边就能完成工作。

5) pi0,来自初创公司Physical Intelligence:一个机器人视觉 - 语言 - 行动(VLA)模型,能出色地完成诸如叠衣服等多步骤任务。利用ALOHA的设置实现了低成本的数据扩展。

6) OpenVLA:斯坦福大学关于开源VLA模型的一项研究成果,基于Open X - Embodiment(OXE)数据集进行训练,该数据集汇集了世界各地实验室的机器人运动轨迹。

第3章 计算硬件

1) 性能提升:英伟达推出Blackwell架构,这是该领域的新巨头。DGX GB200在单个机架上的计算能力突破了1艾(10^18)次浮点运算。

2) 小型化:英伟达Jetson Nano Super,一款售价249美元的迷你盒子,具备67万亿次每秒(TOPS)的人工智能计算能力,专为在机器人等边缘设备上运行小型大语言模型而设计。这堪称英伟达的树莓派时刻!

3) 谷歌Willow芯片:量子计算机就像是多元宇宙中的图形处理器(GPUs)。它能在5分钟内解决随机线路采样(RCS)问题,而普通计算机处理该问题则需要10的24次方年。

第4章 视频生成与世界建模

1) Sora:于2月份发布消息,震惊世界,最终在12月推出,但由于等待时间过长,热度有所下降。它是首款高分辨率、长视频生成模型。Sora是一种基于文本条件的视觉世界软模拟模型。该模型通过一些去噪和梯度数学方法,自主学习复杂的渲染和直观的物理效果。

2) Veo:在OpenAI推迟发布相关产品之际,谷歌强势回归,其产品具备更精确的物理效果和精细的物体动态模拟。

3) 基于行动驱动的世界模型:

- GameNGen:没错,你真的可以在任何地方运行《毁灭战士》(DOOM),甚至是在扩散模型中;

- Oasis:没错,你真的可以在任何地方运行《我的世界》(Minecraft),甚至是在扩散模型中;

- GENIE - 2:在扩散模型中通过操纵杆控制运行更多游戏。

4) World Labs(由李飞飞领导的初创公司):展示了一款具有强大几何一致性的生成式3D基础模型,演示效果令人惊叹。

第5章 大语言模型(LLMs)

>> 能力前沿

1) Claude Sonnet - 3.5:很少有人预料到Anthropic公司能推出排名第一的产品,但强大的Sonnet远超所有人的预期。

2) Gemini 1.5 pro,拥有1000万的上下文长度:仅通过500页的教程、一本词典和400个平行例句,就能从上下文中学会将英语翻译成卡拉芒语(新几内亚仅有不到200人使用该语言)。学习过程通过快速的神经激活即时发生,而不是依靠缓慢的梯度下降。

3) o1(“草莓”项目):推广了推理时扩展技术,并找到了广泛部署的方法。正如萨顿在“苦涩教训”中所说,只有两种技术能随着计算能力的提升实现无限扩展:学习和搜索。现在是时候将重点转向后者了。

4) o3:强化学习的回归。给我一个奖励函数,我就能改变世界。o3的核心在于将单点强化学习超级智能(如AlphaGo)扩展到更多实际有用问题领域(如数学和编程)。

5) 真正的通用人工智能(AGI)测试是完成这个序列:

4o -> o1 -> o3 -> (?)

>> 人机交互界面是一个被严重低估的话题。大语言模型的能力范围远远领先于能充分释放其潜力的用户界面/用户体验(UI/UX)设计。

6) 实时语音模型的兴起,比如GPT - 4o(高级语音模式)。它将传统的三个步骤——音频转文本(自动语音识别,即“ASR”)、文本生成响应(大语言模型)、响应转音频(文本转语音,即“TTS”)——简化为一个步骤。

7) NotebookLM:对大语言模型用户体验的最佳重塑之一:将任何内容播客化。降低了使用门槛:无需输入提示词,无需阅读。只需上传文件,然后聆听两串标记展开的内容即可。

>> 开源社区

8) llm.c:安德烈·卡帕西(Andrej Karpathy)用纯粹的C语言处理标记。不使用Python,不依赖框架,没有任何依赖项。纯粹是原始数学与底层硬件的对话。他用代码写诗。

9) Llama - 3:让你能在手掌间拥有GPT - 4的强大能力。

10) DeepSeek:今年开源大语言模型领域最大的黑马。它表明资源限制能促使你以惊人的方式实现自我重塑。

第6章 人工智能助力科学

1) 诺贝尔物理学奖:如今,我们都是物理学家。人工智能领域的博士们——读一读我的《转行指南》吧。机器学习现在就是“统计力学”。你们现在有资格冲击最高奖项了。

2) 诺贝尔化学奖:我倒要看看,你敢不敢再提一次诺贝尔……开个玩笑,恭喜德米斯(Demis)和AlphaFold团队。这是一生难遇的突破。先攻克人工智能,然后用人工智能解决一切问题!

3) Neuralink:一位脊髓损伤患者如今能够通过意念控制鼠标,实现浏览网页、直播、玩《文明6》,甚至在任天堂Switch上玩《马里奥赛车》。Neuralink将生物神经脉冲映射到人工神经脉冲,然后将像素映射到光标动作。太了不起却又被低估了。

结语

在这篇文章里,我不可能把所有精彩的人工智能时刻都列举出来。真不敢相信,距离ChatGPT首次亮相已经过去2年了,距离Transformer论文发表也已经过去7年了。这期间有大量的炒作、承诺,也有不少担忧。我竭尽全力为读者提高信息的信噪比。

最后,我想用威尔逊的一句话来结尾:

“人类真正的问题在于:我们拥有旧石器时代的情感、中世纪的制度和神一般的科技。”

好消息是,我们在创造科技,这意味着我们也能决定科技在我们的制度、社会和文化中扮演的角色。人工智能是人类未来不可避免的一部分。如果我们正确运用,它将成为一股强大的正能量。

祝大家新年快乐!

图片

 .END.

往期文章回顾