很多人对于具身智能最浪漫的幻想,可能源于一部叫《剪刀手爱德华》的爱情片,电影探讨了机器人爱德华和人类女友相恋的故事。引人瞩目的除了人与机器的生死缠绵外,还有爱德华那堪称罗曼蒂克史上最大障碍的剪刀手。
“拿起剑我就无法拥抱你,放下剑我就无法保护你。”
锋利的刀刃构成了爱德华的双手,具有摘花、剪发、攻击等众多工具属性,却难以搭建和人类的情感桥梁。
在生成式人工智能爆发的年代,对于机械臂的想象又有了更加具象化的实践。
拥有27万粉丝的b站up主“同济子豪兄”就利用开源的大模型打造了一款“具身智能机械臂最小可实践应用”,能够自主决策、进行环境感知。
张子豪是知名的b站人工智能教育科技博主,其录制的Readpaper论文阅读神器、三体AI绘画等视频获得了超百万的播放量。
他曾在上海人工智能实验室工作,被授予MVP微软最有价值专家称号,华为HCDE云享专家,与百度、阿里巴巴、华为、字节跳动等多家大厂合作过。
2024年起,他不再只局限于授课、传播最前沿的人工智能知识,而是开始身体力行践行那些理论知识,实操上手做起人工智能机械臂。
尤其是接入多模态大模型后,机械臂其处理问题决策能力明显有了提升,能实现“听懂人话、看懂图像、指哪打哪”。“大模型就像给具身智能吹了口仙气,从此机械臂就有了灵魂。”与人相类比,这款具身智能的眼睛、大脑、躯干分别是物理传感器、多模态大模型和机械臂。眼睛:具身智能的“眼睛”指感知技术,包括视觉传感器、听觉传感器、触觉传感器、力觉传感器等物理传感器。这些传感器使智能体能够感知环境,收集必要的信息以进行决策和行动。大脑:具身智能的“大脑”是指智能体的决策和规划能力,通常涉及到高级计算模型,如多模态大模型。这些模型能够整合视觉、听觉、触觉等多种感官数据,以及语言、指令等抽象信息,为机器人提供更为丰富和全面的环境理解能力。躯干:具身智能的“躯干”涉及到智能体物理执行能力,包括机械臂、机器腿或其他机械构件的运动控制。机械构件使智能体能够根据“大脑”的决策进行实际的物理动作,如移动、抓取物体或执行其他任务。具身智能体在模拟出来的场景中无数次地尝试、学习、反馈、迭代,积累对物理世界的深度理解,产生大量交互数据,再通过与真实环境的不断交互积累经验,全面提升在复杂世界的自动移动、复杂任务的泛化能力。张子豪研发的具身智能机械臂项目“vlm_arm”是一个创新的尝试,它将机械臂、大模型和多模态AI技术相结合,旨在创建一个能够理解自然语言、视觉信息并执行复杂任务的人机协作智能体。该项目采用了大象机器人Mycobot 280 Pi,一款6自由度的桌面型机械臂,通过集成大语言模型和多模态视觉理解模型,如Yi-Large、Claude 3 Opus、GPT4o、Yi-Vision等,赋予了机械臂强大的理解和执行能力。通过手眼标定技术,机械臂能够将图像中的像素坐标转化为自身坐标,执行精确的抓取动作。“作为开发者,我们只需要把各种模块像积木一样拼起来,调用各种API为我们所用。”通过提示词工程设计人机交互模式,通过智能体agent、智能路由选择解锁生成式AI的开放世界。OpenAI春季发布会发布的GPT4O把文本、视觉、语音多模态端到端集成到了一起,真正给机器人注入灵魂。在子豪看来,毫无疑问,具身智能产业即将迎来大爆发,未来每个人都可以是钢铁侠托尼·史塔克。这款8000块的硬核黑科技,张子豪一人操刀,耗时不到28天。一人AI的概念指的是个人利用人工智能技术来增强自己的工作能力和效率,使得一个人能够像一个团队一样高效地工作。这种模式下,人工智能技术成为个人工作的一部分,帮助处理各种任务,从而实现“一个人+AI=一整个团队”的效果,进一步说就是人工智能时代的超级个体。OpenAI负责人奥特曼曾预言,以AI为杠杆,一人公司就可以创造过亿的财富。作为一人AI的先行者,张子豪将自己的教程公布在GitHub上,一共获得了13.6kstar,6.4k粉丝。
张子豪认为:“个人开发者玩大模型,算法、数据和算力中,算力门槛最高。”过去五年内,算法工程师曾是稀缺资源,但随着开源大模型和大模型门槛的降低,算法的重要性下降,算力成为了新的稀缺资源。历史上技术进步不断将复杂问题转化为巨大的计算任务,如阿尔法Fold解决蛋白质结构预测,智能驾驶技术,以及大模型训练。这表明,利用巨大算力解决复杂问题的能力是推动技术爆炸的关键。提及英伟达的物理AI理念,子豪认为个人开发者可借鉴的有四个杠杆:一是创造复制编辑成本为零的产品,实现一份时间出售多份;二是运用费曼学习法,以教促学,提升学习效果,比如子豪在b站上更新的系列AI课程和AI趣味测评;三是打造个人代表作,作为个人品牌和实力的展示,在人工智能时代打造属于个体的超级IP;四是强调在AI时代下,既要使用AI也要创造自己的产品。张子豪在AI时代的个人IP就是他的科技up主标签和自行制作的机械臂,他看重具身智能中大模型的重要性。
之前的自动化的机器人,被子豪称为“死板的只能执行固定动作跳霹雳舞”。接入大模型后,就像给他吹了一口仙气儿,给他注入了灵魂。他就能够理解人类的复杂指令,感知大千万物去做出决策,就能跟真实的物理空间去交互。现在有很多类似的说法,我们叫做embodied intelligence,英伟达叫做物理AI(physics AI),李飞飞叫做空间智能。但其实说的都是同一件事,就是机器人能够跟真实的物理世界进行交互。在成为AI时代的超级个体之前,子豪的使命是用更通俗易懂的语言讲清楚人工智能课程。“创作真正有良心的科普、数学、算法、编程、论文学术教程,节省大家最宝贵的时间和注意力。”他总共录制了292条视频,总播放量超过1700万,五次登上热搜榜。2018年之前,张子豪在重庆大学学习土木工程,与AI相距甚远。看到人工智能的潜力,他开始跨专业考研,花半年从土木到计算机,考到了同济大学交通运输工程学院,读研期间同时在微软亚洲研究院、IDEA实习。这段跨考自学之旅让子豪意识到:AI的课程太抽象,一个简单的bug自己曾经要在图书馆啃一下午的专业理论。那时他就想:“要是自己有一个引路人就好了。”在他的b站账号上,他发布了GitHub高赞开源项目、斯坦福CS224W公开课、增强现实、生成对抗网络等系列前沿课程,并总结出一条学习计算机的黄金法则:在武侠小说中,内功是武功的根基,气力代表一个人的基本能力,招数是具体的武功招式,用于实战对敌。数学就像是内功,为计算机科学提供理论基础,包括离散数学、线性代数等。编程将理论付诸实践,就如同练好武功需要修炼气力,编程技能也需要持续锻炼提升。算法是解决问题的具体方法,好的算法能高效解决复杂问题,就像好的招数能将敌人一击致命。子豪出圈的第一条视频是“大白话讲解卷积神经网络工作原理”,播放量37.5万,点赞1万。那是2018年11月,子豪读研的第一个学期,也是在b站发布的第二条视频。视频通俗易懂地讲解了卷积、池化(下采样)、梯度下降、反向传播,以及ImageNet网站和几款经典模型。从那以后,子豪基本每周更新一次课程,粉丝量也渐渐突破十万、二十万。亚马逊首席科学家李沐评价道:“推荐下同济子豪兄的论文精读系列,笔记做得很棒。”从跨考、读研到工作、创业,他从未放弃自己作为AI引路人的身份。他还要录制更多的课程,继续照亮那些因晦涩而难以阐释的理论空间。