Hugging Face 和 Physical Intelligence 本周悄然推出了 Pi0 (Pi-Zero),这是首个可将自然语言命令直接转换为物理动作的机器人基础模型。
Hugging Face 的首席研究科学家 Remi Cadene 在一条引起 AI 社区广泛关注的 X 平台帖子中宣布:"Pi0 是最先进的视觉语言动作模型。它接收自然语言命令作为输入,直接输出自主行为。"
这次发布标志着机器人技术的一个重要时刻:首次通过开源平台广泛提供机器人基础模型。就像 ChatGPT 革新了文本生成一样,Pi0 旨在改变机器人学习和执行任务的方式。
Pi0 如何将 ChatGPT 式学习引入机器人技术,解锁复杂任务
这个最初由 Physical Intelligence 开发并现已移植到 Hugging Face 的 LeRobot 平台的模型,可以执行诸如叠衣服、收拾餐桌和打包杂货等复杂任务——这些任务传统上对机器人来说都极具挑战性。
Physical Intelligence 研究团队在他们的公告中写道:"当今的机器人是狭隘的专家,仅被编程用于在编排好的环境中进行重复动作。Pi0 改变了这一点,让机器人能够学习并遵循用户指令,使编程变得像告诉机器人你想要做什么一样简单。"
Pi0 背后的技术代表着重要的技术突破。该模型通过七个不同机器人平台和 68 个独特任务的数据进行训练,使其能够处理从精细操作到复杂多步骤程序的各种任务。它采用了一种称为流匹配的新技术,以 50Hz 的频率产生平滑的实时动作轨迹,使其在现实世界部署中具有高精度和适应性。
新的 FAST 技术将机器人训练速度提升 5 倍,扩展 AI 潜力
在此基础上,团队还推出了 "Pi0-FAST",这是模型的增强版本,incorporates 了一种称为频率空间动作序列标记化 (FAST) 的新标记方案。这个版本的训练速度比前代提高了五倍,并在不同环境和机器人类型中表现出更好的泛化能力。
这对工业界的影响是巨大的。制造设施可能通过简单的口头指令而不是复杂的编码来重新编程机器人执行新任务。仓库可以部署更灵活的自动化系统来适应不断变化的需求。甚至小企业也可能发现机器人技术更容易获得,因为编程和部署的门槛显著降低。
然而,挑战依然存在。虽然 Pi0 代表着重大进步,但它仍有局限性。该模型在处理非常复杂的任务时偶尔会遇到困难,并且需要大量计算资源。在工业环境中的可靠性和安全性也存在问题。
这次发布恰逢 AI 行业发展的关键时期。当各公司争相开发和部署人工通用智能 (AGI) 时,Pi0 代表了首次成功跨越语言模型和物理世界交互之间鸿沟的尝试之一。
该技术现已通过 Hugging Face 平台提供,开发者只需几行代码就能下载和使用预训练策略:
```python policy = Pi0Policy.from_pretrained("lerobot/pi0") ```
对企业用户来说,这种可访问性可能加速各行业采用先进机器人技术。企业现在可以针对特定用例微调模型,可能减少部署机器人解决方案所需的时间和成本。
企业领导者为何应关注开源机器人技术
开发团队还发布了全面的文档和培训材料,使这项技术能够被更广泛的用户群体使用。机器人技术的这种民主化可能导致各个领域的创新应用,从医疗保健到零售业。
随着技术的成熟,它可能重塑我们对自动化和人机交互的认知。通过自然语言控制机器人的能力可能使机器人辅助在家庭、医院和小企业中更容易实现——这些领域由于编程复杂性,传统机器人技术一直难以获得发展。
随着这次发布,机器人技术的未来看起来越来越对话化、适应性强和易于使用。虽然还有工作要做,但 Pi0 代表着向使多功能、智能机器人成为实用现实而不是科幻幻想迈出的重要一步。