AI创投周报|李飞飞团队让机器人接手所有家务,何恺明、LeCun联手改造Transformer

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。


图片本图片由“千象”(网址:www.hidreamai.com)生成


本周,我们观察到以下AI领域的新动向和新趋势:

1.OpenAI发布智能体API及其配套工具其Responses API内置网络搜索,文件搜索和计算机使用工具三大核心功能,配合同步推出的Agents SDK和Observability Tools,构建起涵盖单/多智能体工作流编排与执行监控的完整生态。

2.李飞飞团队在“保姆型”机器人领域取得新突破,提出了一种名为“行为机器人套件”(Behavior Robot Suite, BRS)的综合框架,旨在让机器人更自主、更可靠地执行日常家务任务。


3.何恺明LeCun联手改造Transformer,他们提出的DYT技术,旨在替代Transformer中的归一化层,这项技术在LLaMA 7B模型上,使得推理和训练时间分别减少了52.4%和42.2%。


图片

人工智能产品和技术的新突破


1.OpenAI发布智能体API及其配套工具

OpenAI近日发布Responses API及其配套工具,Responses API内置三大核心功能:网络搜索工具可实时获取网络信息并标注来源,在SimpleQA基准测试中准确率达90%;文件搜索工具支持多格式文档检索与元数据过滤,助力客服、法律等场景应用;计算机使用工具则通过模拟人机交互实现自动化操作,在OSWorld等测试平台创下38.1%的成功率新纪录。

OpenAI同步推出Agents SDK和Observability Tools,构建起涵盖单/多智能体工作流编排与执行监控的完整生态。值得注意的是,Responses API采用透明定价模式,网络搜索、文件搜索等工具按标准费率计费,同时承诺用户数据仅用于服务而不会默认用于模型训练。为保障技术安全,研发团队针对计算机使用工具进行了红队测试,并设置了防提示注入等多重防护机制。

2.一次搭建完胜1亿次编码,Anthropic的MCP协议解锁智能体“万能手”

Anthropic推出的MCP(Model Context Protocol)协议旨在简化AI智能体与外部工具和数据源的连接方式。

Anthropic通过MCP赋予了Claude模型在工具调用和外部数据访问方面,的显著的优势。MCP支持双向通信,类似于WebSockets,使得AI模型既能获取信息,也能实时触发操作。与传统API相比,MCP的集成效率大幅提升,尤其是在面对大量AI助手和外部工具时。

此外,MCP还内置了访问控制机制和标准化的安全实践,确保了系统的安全性和合规性。MCP的灵活性使其既可以在云端运行,也可以在本地设备上部署,适应性极强。总的来说,MCP为AI助手和外部系统之间架设了一条高速路,取代了过去需要技术人员手工搭建的低效模式,极大地推动了AI智能体的发展。

3.李飞飞团队具身智能最新研究:机器人接手所有家务,倒垃圾刷马桶家务全包

斯坦福大学的李飞飞团队在“保姆型”机器人领域取得了新突破,提出了一种名为“行为机器人套件”(Behavior Robot Suite, BRS)的综合框架,旨在让机器人更自主、更可靠地执行日常家务任务。

该团队由李飞飞领导,成员包括Yunfan Jiang、Ruohan Zhang等。他们的研究聚焦于解决机器人在家庭环境中执行多样化任务时面临的挑战,尤其是全身操作和视觉-运动策略学习方面的难题。

图片

BRS框架的核心创新包括JoyLo和WB-VIMA。JoyLo是一种低成本、全身远程操作界面,旨在实现对高自由度移动机械臂的流畅控制,并为策略学习提供高质量的数据。

WB-VIMA则是一种模仿学习算法,通过自注意力机制动态聚合多模态观察,确保机器人关节之间的精确协调,从而实现更同步的全身运动。

研究团队通过五项代表性家务任务(如倒垃圾、整理衣物、刷马桶等)展示了BRS的能力,所有任务均在真实环境中完成,且WB-VIMA在所有测试中均稳定超越基准方法。

4.谷歌推“机器人大脑”Gemini Robotics:折纸、扣篮、装饭盒不在话下

谷歌DeepMind近日推出了两款基于Gemini2.0的具身智能模型——Gemini Robotics和Gemini Robotics-ER,旨在为新一代实用机器人奠定基础。这两款模型在泛化能力、交互性和灵巧性上取得了显著突破,能够帮助机器人理解复杂环境并执行精细任务。

图片

Gemini Robotics是一款高级的VLA(视觉-语言-动作)模型,通过增加物理动作作为输出方式,直接控制机器人完成多步骤任务,如折纸、打包饭盒等。而Gemini Robotics-ER则具备高级空间理解能力,允许机器人利用Gemini的具身推理能力,识别物体并执行相应动作。这两款模型不仅适用于双臂机器人平台,还能适配各种形态的机器人,展现了强大的多形态适应能力。

Gemini Robotics在泛化性基准测试中的表现比其他顶尖VLA模型平均高出一倍多,能够适应新情况并解决未见过的任务。此外,它还能理解日常对话语言指令,并持续观察周围环境,调整动作以适应变化。这种可控性使得机器人在家庭和工作场所中与人类更好地合作。

5.智元机器人发布首个通用具身基座模型,机器人告别“看得懂做不来”

智元机器人近日发布了双重惊喜:Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型GO-1。这一发布标志着机器人在认知与动作训练上的重大突破。

图片
智元机器人将机器人的训练数据划分为四个层次

智元机器人通过划分机器人的训练数据为四个层次,解决了传统VLA架构依赖真机和合成数据的局限性,使得机器人能够更有效地利用人类操作视频等宝贵数据源,降低迭代成本,加速进化。

ViLLA架构通过预测Latent Action Tokens(隐式动作标记),使机器人能够将人类动作视频转化为可执行的动作序列,从而同时获得认知和动作两个维度的训练。

基于ViLLA架构,智元打造了通用具身基座大模型GO-1,它由VLM(语言视觉模型)和MoE组成,整合了视觉、语言、动作、触觉等多模态输入,规划具体动作,直接输出机器人的动作执行序列。

GO-1大模型融会贯通了机器人训练数据的四个层次,帮助机器人完成全面的“基础教育”和“职业教育”,具备强大的迁移学习能力,能够快速适应新场景和新任务。实验结果显示,GO-1在五种不同复杂度任务上的成功率大幅领先,平均成功率提高了32%。

6.何恺明LeCun联手改造Transformer,9行代码替代归一化层,性能不减还加速

何恺明与Yann LeCun联手提出了一种名为DYT(Dynamic Tanh)的新技术,旨在替代Transformer中的归一化层。这一创新成果已入选CVPR 2025,并展示了在不牺牲性能的前提下显著加速模型训练和推理的潜力。


DYT通过简单的元素级运算实现归一化效果,避免了传统归一化层中耗时的聚合操作。实验表明,DYT在多种任务和模型架构中均表现出色,尤其在LLaMA 7B模型上,推理和训练时间分别减少了52.4%和42.2%。这一技术不仅提升了效率,还验证了原始Transformer只是众多等效神经结构中的一种,为未来的神经网络设计提供了新的思路。DYT的代码库已开源,便于研究者和开发者复现和扩展这一成果。


7.CMU和滑铁卢大学华人学者提出全新“批判式微调”

卡内基梅隆大学(CMU)和滑铁卢大学的华人学者团队近日提出了一种全新的“批判式微调”(Critique Fine-Tuning, CFT)方法,旨在提升大语言模型在复杂推理任务中的表现。该研究由Yubo Wang、Xiang Yue和Wenhu Chen三位学者主导,相关论文已公开发表。

CFT的核心思想是让模型学会批判,而不仅仅是模仿。与传统的SFT方法不同,CFT在训练过程中为错误响应提供批评,使模型能够识别并改进响应中的缺陷。

实验表明,CFT在仅使用50000个样本进行训练的情况下,其性能优于使用超过200万个样本的强化学习方法。例如,在数学推理任务中,CFT训练的模型准确率平均高出SFT模型4-10个百分点,且训练效率更高,收敛速度更快。此外,CFT训练的模型在性能上甚至能够与参数量更大的模型相媲美,同时大幅降低了计算成本。

8.谷歌全模态模型首次解禁,Gemini 2.0可实现中文聊天式P图

谷歌为Gemini 2.0 Flash解禁了图像生成功能,这使得它的全模态模型实现了新的突破。Gemini 2.0 Flash不仅支持原生图像生成,还能通过自然语言提示进行对话式编辑,极大地简化了图像处理流程。开发者现在可以通过Gemini API和Google AI Studio的实验版本使用这一功能。

Gemini 2.0 Flash的独特之处在于其超强的推理能力,能够结合现实世界的知识生成更符合上下文的图像,理解更多细节,并遵循文化背景特征。此外,它还能同时输出文本和插图,保持惊人的一致性。

这一技术的成功发布,使得谷歌在与OpenAI的竞争中占据了先机。OpenAI虽然早在8个月前就展示了全模态图像生成技术,但至今尚未发布相关产品。

图片
人工智能初创公司的新融资

1.AI机器人公司Dexterity获9500万美元融资,估值16.5亿美元

官网: www.dexterity.ai

专注于精细工业机器人研发的Dexterity近日完成由Lightspeed Venture Partners和Sumitomo领投的9500万美元的新融资,投后估值16.5亿美元。

Dexterity由斯坦福大学博士Samir Menon创立,专注于开发“类人”精细工业机器人,旨在解决仓库和工厂中重复且危险的任务,如装载箱子和分拣包裹。公司采用专门的AI模型,每个模型专注于一项特定任务,以提高效率和精确度。

目前,Dexterity的客户包括FedEx和UPS等知名物流公司。创始人Menon表示,这些机器人不仅能够提升工作效率,还能显著降低人工操作的风险。

2.AI医疗公司Ataraxis AI完成2040万美元A轮融资,由AIX Ventures领投

官网: https://ataraxis.ai/

美国AI病理学医疗公司Ataraxis AI完成2040万美元A轮融资,由AIX Ventures领投,参投方包括Thiel Bio、Founders Fund、Floating Point、贝塔斯曼投资,以及既有投资者Giant Ventures和Obvious Ventures。此轮融资将用于加速Ataraxis Breast的商业化落地、扩展其他癌症类型预测工具开发,以及下一代AI模型的研发。

Ataraxis AI由医学博士Jan Witowski和机器学习专家Krzysztof Geras联合创立,并获Meta首席AI科学家Yann LeCun担任技术顾问。公司脱胎于纽约大学,核心团队结合了医学影像与AI技术研发背景,致力于通过人工智能改善癌症预后预测和治疗方案选择。

其核心技术Kestrel是基于Vision Transformer的泛癌AI基础模型,通过分析数亿张数字病理切片图像块,揭示传统分子检测难以发现的复杂生物标志物,从而提供更精准的复发风险评分。

目前,它的首款产品Ataraxis Breast已通过临床验证,这是全球首个针对乳腺癌的AI原生预后/预测平台。该平台通过整合病理图像特征与临床数据(如癌症分期、受体状态等),生成0-1分的复发风险评分。研究显示,其预测准确率比现行标准检测Oncotype DX(分子检测)高出30%,并能将中风险患者重新分类为低/高风险组,减少不必要的化疗。

3.AI医疗文书公司Freed完成3000万美元A轮融资,Sequoia Capital领投

官网: www.getfreed.ai

Freed完成3000万美元A轮融资,Sequoia Capital领投,Scale Venture Partners、Daniel Gross等跟投。此轮资金将用于扩展产品功能(如智能编码与自动化账单),以及拓展家庭医学、妇产科等新专科领域。

Freed专注于AI医疗文书自动化,由前Facebook工程师Erez Druk与Andrey Bannikov联合创立。其核心产品为AI语音记录系统,旨在通过实时记录医患对话并自动生成标准化病历,大幅减少临床医生的文书负担。

目前,该平台已支持精神病学、急诊医学等6大专科的差异化模板,并实现与主流电子病历系统(EHR)的无缝集成。截至2025年2月,Freed服务全球1.7万名医生,每月处理200万患者病例,将单次文书处理时间从15分钟压缩至2分钟。

4.AI品牌代理平台Firsthand完成2600万美元A轮融资

官网:www.firsthand.ai

AI品牌代理平台Firsthand完成由Radical Ventures领投的2600万美元A轮融资,FirstMark Capital、Aperiam Ventures等跟投。

Firsthand专注于通过AI品牌代理平台重塑营销生态。该公司开发的解决方案允许营销商和出版商创建自主运行的AI代理,这些代理能够直接与消费者互动,既可部署在自有数字资产中,也可作为付费媒体分发至外部平台。

其核心技术优势在于知识权利管理系统,该系统确保品牌方对生成内容保持完整控制权,同时支持多方数据的安全协作,解决了AI营销领域长期存在的版权归属与数据隐私难题。例如,某时尚品牌可通过Firsthand平台生成具备个性化推荐能力的虚拟导购员,该AI代理不仅能理解用户偏好,还能根据实时对话动态调整营销策略。

5.AI基础设施提供商Turing完成1.11亿美元E轮融资

官网: www.turing.com

AI基础设施提供商Turing完成1.11亿美元E轮融资,由Khazanah Nasional Berhad领投,Westbridge Capital、Sozo Ventures等机构跟投。

Turing成立于2018年,公司最初以远程工程师招聘与审核平台起家,在疫情期间因远程协作需求激增而快速发展,2022年转型进入AI领域,现已成为生成式AI训练数据与开发工具的核心服务商。

其核心业务包括通过连接全球超400万开发者的网络,为OpenAI、Anthropic、Google等头部AI公司生成定制化训练数据集(如代码、人类反馈强化学习数据),并提供LLM Lab、ALAN等工具加速AI应用开发。截至2025年3月,其ARR达1.67亿美元,并已实现盈利。

6.AI基础设施公司Ceramic完成了1200万美元的种子轮融资

官网:https://ceramic.ai/

Ceramic完成1200万美元的种子轮融资,由NEA领投,IBM、Samsung Next、Earthshot Ventures和Alumni Ventures等投资者参与。

Ceramic为企业提供先进的AI基础设施,旨在优化大语言模型的训练过程。该公司的平台支持长文本训练,允许模型一次处理多达96000个单词而不会出现性能下降,同时提高了推理性能。

Ceramic的解决方案使企业能够利用自己的数据和特定领域知识定制AI模型,加速AI模型的开发、训练和扩展。

7.HR科技公司Darwinbox获1.4亿美元战略融资

官网: https://darwinbox.com

Darwinbox获得由Partners Group和KKR共同领投,Gravity Holdings跟投的1.4亿美元战略融资。此前,该公司在2022年的D轮融资中估值突破10亿美元,成为独角兽企业。

Darwinbox是一家印度人力资源科技公司,专注于提供移动优先、AI驱动的一体化人力资本管理(HCM)平台。其产品覆盖招聘、考勤、薪酬、绩效管理等核心HR功能,并通过AI技术优化流程,例如利用生成式AI提升招聘效率和员工体验。

目前,该平台已服务全球130个国家的1000多家企业,包括星巴克、妮维雅、AXA、Cigna等知名客户,管理超过300万名员工。

8.AI按摩椅公司Aescape近期完成8300万美元的新融资

官网: www.aescape.com

Aescape近期完成8300万美元战略融资,由Valor Equity Partners领投,参投方包括Alumni Ventures及NBA球星Kevin Love等。此轮融资后,公司总融资金额达1.28亿美元。

Aescape利用先进的人工智能技术,提供世界上首个全自动、可定制的按摩体验,实现个性化保健和康复。

Aescape由四次创业的Eric Litman创立,公司在去年与纽约豪华健身品牌 Equinox达成合作,首次提供商用自动按摩体验。Aescape预计2025年将再出货400台设备, 还宣布与酒店、企业健康、豪华房地产和职业体育领域的行业领导者建立合作伙伴关系,其中包括四季酒店及度假村、万豪酒店和丽思卡尔顿酒店。

9.AI驱动的视觉检测公司Zeitview完成6000万美元融资

官网: www.zeitview.com

AI驱动的视觉检测公司Zeitview宣布完成6000万美元融资,由Climate Investment领投,现有投资者Valor Equity Partners、Union Square Ventures、Upfront Ventures等跟投。

Zeitview是专注于AI驱动的关键基础设施检测与分析的科技公司,其核心技术为视觉AI平台Insights,它通过无人机+AI自动化分析显著缩短检测周期(传统人工检测的1/3时间),同时降低对专业劳动力的依赖。其平台整合了实时风险预测模型,可评估资产退化趋势并提出优先级维护建议。

与单一资产类别的检测方案不同,Zeitview的差异化优势在于跨行业平台能力,覆盖太阳能、风能、公用设施、房地产等多类基础设施,例如在太阳能电站中精准定位面板缺陷,或在风力发电场识别叶片结构风险。

10.VIE Technologies完成1500万美元的A轮融资

官网:https://vietechnologies.com/

VIE Technologies近期完成1500万美元的A轮融资,由Energy Impact Partners领投。

VIE Technologies为能源公司、数据中心运营商和工业设施提供先进的能源监测和预测性维护解决方案。该公司通过其独特的非侵入式AI驱动预测维护解决方案,使用先进的物联网传感器和预测分析技术,能够提前检测设备问题,推荐修理方案,从而提高电力系统的可靠性。

VIE Technologies的产品和服务适用于数据中心、公用事业和工业部门,帮助客户提高运营效率、减少停机时间和延长设备寿命。

VIE Technologies的创始人兼首席执行官Rahul Chaturvedi是一位拥有25年无线行业经验的创新者,曾发明了MiFi等重要技术。

本文由阿尔法公社综合自多个信息源,并在AI大模型的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。


关于阿尔法公社