AI创投周报| OpenAI发布o1完全体,DeepMind发布Genie 2世界模型,xAI再获60亿美元融资

AI创投周报是阿尔法公社关于全球人工智能投资的资讯周报,适合创业者和投资人参考。


阿尔法公社聚焦科技天使投资,近期集中投资了十余家AI初创企业,我们瞄准高段位创业者,投资了加拿大工程院外籍院士、美国工程院院士担任CEO的数个项目,以及国家重大专项首席专家、中国CIO标杆人物、大厂高端人才等创始人项目,包括HiDream智象未来、八方地动、创享数智等。


图片

本图由“千象”(网址:www.hidreamai.com)生成


本周,我们观察到AI领域的新动向和新趋势:


1. OpenAI首场直播:发布o1完全体和ChatGPT Pro订阅服务。OpenAI于12月5日开启了为期12天的活动,发布多个新产品,根据外媒The Verge的内部消息,Sora也将在此期间发布。目前,OpenAI 的第一场直播已经结束,共发布两项:o1完全体和ChatGPT Pro订阅服务。其中,o1完全体(Full Version)是一款更擅长编程、数学和写作的推理模型,在推理速度和性能上均优于之前的o1-preview版本,错误率大幅降低。


2. 谷歌DeepMind发布Genie 2:单图生成可玩3D世界。Google DeepMind 宣布了他们的新一代世界模型 Genie 2,其可根据一张图生成可供人类或 AI 智能体游玩的 3D 世界,最长可玩1分钟。作为一种基础世界生成模型。DeepMind 指出,训练更通用的具身智能体的瓶颈在于难以获得足够丰富和多样化的训练环境,而Genie 2填补了这一空白,其能生成无限多样的、可操控且可玩的3D环境,用于训练和评估具身智能体。


3. 马斯克xAI公司再获60亿美元融资,估值超400亿美元。埃隆·马斯克的人工智能公司xAI近日宣布完成60亿美元的B轮融资,使得公司累计融资额达到120亿美元。据报道,Valor Equity Partners、红杉资本、安德森·霍洛维茨和卡塔尔主权财富基金等知名投资机构可能参与其中。本轮资金的注入将xAI的估值推至500亿美元,是六个月前估值的两倍。


图片

人工智能产品和技术的新突破


1. OpenAI开启12天系列新产品发布活动:首日直播推出o1完全体和ChatGPT Pro订阅服务


从12月5日起,OpenAI将举行为期12天的活动,发布多个新产品,根据外媒The Verge的内部消息,Sora、ChatGPT语音增强、GPT-4o图像功能等多项产品将发布。目前,OpenAI 的第一场直播已经结束,总结来说共发布两项:o1完全体和ChatGPT Pro订阅服务。


o1是使用大规模强化学习训练并使用思维链进行推理的系列模型。o1完全体(Full Version)则是一款更擅长编程、数学和写作的推理模型,新增了图像上传功能,使得模型能够利用视觉数据生成更详细的响应。o1完全体在推理速度和性能上均优于之前的o1-preview版本,错误率大幅降低。此外,OpenAI还推出了ChatGPT Pro,这是一个每月200美元的订阅服务,提供无限制访问所有模型的服务,模型包括o1完全体和更高级的o1 pro。


图片

来源:https://openai.com/

OpenAI 通过一个基于人工鸟巢图像生成安装手册的示例演示了 o1 基于视觉数据进行推理的能力


2. 谷歌DeepMind发布Genie 2:单图生成可玩3D世界

Google DeepMind 宣布了他们的新一代世界模型 Genie 2,其可根据一张图生成可供人类或 AI 智能体游玩的 3D 世界,最长可玩1分钟。Genie 2是在大型视频数据集上训练,能够以自回归方式采样,逐帧采取动作并利用潜在帧捕捉视频内容的深层特征和动态变化,帮助模型更好地理解和生成连贯的3D世界。因此它除了模拟出虚拟世界,还展现出了物体交互、复杂角色动画、物理效果等大规模涌现能力。DeepMind 也指出,训练更通用的具身智能体的瓶颈在于难以获得足够丰富和多样化的训练环境,而Genie 2 似乎就能填补这一空白,其能创造一个用于训练和评估智能体的无限新世界。


普林斯顿AI创新中心创始人王梦迪表示,Genie2 每一帧的生成都是 pixel prediction(像素预测),并通过额外的用户输入的 guidance(引导)来影响下一帧的概率分布。而之前李飞飞发布的World Labs 是更进一步挖掘图片内的物理本质,生成了更加符合物理世界的 3D 环境建模。


图片
来源:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
World Labs 的单图生成 3D 场景的效果演示

3. 亚马逊发布新一代AI基础模型:Amazon Nova系列


亚马逊在re:Invent大会上宣布了新一代基础模型Amazon Nova系列。Amazon Nova系列主打 Any to Any,覆盖从纯文本到图像和视频的多模态输入输出。Nova系列在性能上达到了SOTA(State of the Art,意为“最先进的技术”、“最新的成果”)水平,能打败许多同量级市场定位的基础模型,且成本效益高,比Amazon Bedrock中的其他模型便宜约75%。


此次亚马逊共推出了Nova系列中的4款模型。其中,Micro模型属于仅文本模型,只支持输入文本和输出文本,是 Nova 系列中响应速度最快、性价比最高的模型。接下来是三种可支持多模态输入,并输出文本内容的模型。Lite 模型可以快速处理图像、视频和文本输入,并输出文本内容,是一种低成本的多模态模型。Pro模型可以针对多种任务提供最佳的准确性、速度和成本组合。最强的是 Nova Premier,该模型可以用于复杂推理任务,也可作为定制模型蒸馏的最佳「教师」。亚马逊还预告了Nova Canvas和Nova Reel两款视觉内容生成模型,分别用于图像和视频生成。


图片
来源:https://aws.amazon.com/cn/?nc2=h_lg
视频生成模型Amazon Nova Reel,给定一张图片和一句话,即可让画面动起来

4. 特斯拉Optimus机器人迎来22自由度灵巧手


特斯拉Optimus机器人最新推出二代灵巧手,工程师Milan Kovac称此为“里程碑式的成就”。这款新手拥有22个自由度,手腕上额外有3个自由度,接近人类手的27个自由度,使得Optimus能执行更复杂和精细的动作。与上一代相比,自由度翻倍,显著提高了灵活性和功能性。在特斯拉机器人官方账号最新发布一条视频里,Optimus团队通过远程操作实时展示了机器人稳稳接住并放下网球的能力,显示出其灵巧手的实用性。Kovac表示,上述视频是在实验室里通过远程操作实时完成的,特斯拉很快就会制造出配备新灵巧手的机器人。团队打算在到年底前完成灵巧手扩展触觉传感集成(新一代手比上一代的表面覆盖范围大得多)、实现肌腱更精细的控制等工作。


图片

来源:https://twitter.com/tesla_optimus


5. 英伟达提出Star Attention,超十倍加速LLM推理

      

为了解决大模型由于上下文长度增加而导致的推理成本上升这一问题,英伟达最近提出了一种名为Star Attention的新机制并登顶Hugging Face每日论文榜首。Star Attention机制带来的性能提升主要体现在两个方面:一是在多个长上下文基准测试中,推理速度显著提升,加速比可达11倍;二是相对准确率的降低仅在0~3%范围内。因此该机制能够在不损失精度的情况下显著减少大型语言模型(LLM)的推理计算量,从而助力边缘计算。


此外,Star Attention可以无缝集成到大多数基于Transformer的LLMs中,无需额外的模型微调。这项技术不仅减少了推理的计算成本,还显著减少了内存需求,使得在本地设备上处理更长的序列成为可能。英伟达表示,未来的研究将尝试将Star Attention扩展到更长序列和更大模型,并优化“锚块”机制,以增强其可扩展性和稳健性。


图片

来源:https://arxiv.org/pdf/2411.17116


6. DeepMind的GenCast模型:8分钟预测15日天气,准确度超越顶尖天气预报系统ENS

      

DeepMind开发的气象预测大模型GenCast在Nature杂志上发表,该模型能在8分钟内完成未来15天的天气预测,并且在97.2%的场景中表现超过了全球顶尖的中期天气预报系统ENS。GenCast基于AI原理并采用集合式预报的方式,实现了分辨率为0.25度经度/纬度天气预测能力。GenCast预测速度很快,完成一次15天的预测仅需约8分钟,而ENS需要几个小时。此外,在1320种实验条件下,GenCast有97.2%的预测结果都比ENS的更加准确。论文作者、DeepMind研究人员Ilan Price表示,该模型通过机器学习赶上并超越了基于物理的模型,这是巨大的进步。目前,该模型已开源。DeepMind还将发布GenCast生成的实时和历史预报结果,为其他研究者提供研究资源。


图片
来源:https://deepmind.google/discover/blog/gencast-predicts-weather-and-the-risks-of-extreme-conditions-with-sota-accuracy/

7. 微软发明全新LLM语言:Droidspeak,AI智能体交互效率翻倍

      

微软和芝加哥大学的研究人员提出了一种名为Droidspeak的新方法,让AI智能体之间可以用自己的语言进行交流,显著提高了模型的通信速度。这种方法的核心思想是缓存复用,即在智能体系统中,Droidspeak通过直接传递模型中间计算结果(缓存),而不是转换成人类能理解的自然语言,从而提高了通信效率。实验结果表明,在不损失性能的情况下,Droidspeak使模型的通信速度提高了2.78倍。这种方法不仅提高了智能体系统的效率,还减少了GPU的内存开销和计算延迟。对于需要频繁交互的智能体系统来说,Droidspeak是一项重要的技术进步。


图片

来源:https://arxiv.org/pdf/2411.02820


图片
人工智能初创公司的新融资


1. 马斯克xAI公司再获60亿美元融资,估值超400亿美元


官方网站:https://x.ai/


埃隆·马斯克的人工智能公司xAI近日宣布完成60亿美元的B轮融资,使得公司累计融资额达到120亿美元。据报道,Valor Equity Partners、红杉资本、安德森·霍洛维茨和卡塔尔主权财富基金等知名投资机构可能参与其中。本轮资金的注入将xAI的估值推至500亿美元,是六个月前估值的两倍。


xAI成立于2023年,曾推出旗舰AI模型Grok。该模型以其“叛逆性格”著称,能够回答其他AI系统通常回避的敏感问题。目前该模型已集成至X平台的多个功能中,包括聊天机器人等。据报道,xAI已为SpaceX的Starlink提供模型支持,也在与特斯拉探讨合作。xAI的年收入已达约1亿美元,而Anthropic和OpenAI的收入目标分别为10亿美元和40亿美元。


2. AI芯片公司Tenstorrent获7亿美元的D轮融资,贝索斯参投


官方网站:https://tenstorrent.com/


AI芯片公司Tenstorrent宣布获得7亿美元(约合50.97亿元人民币)的D轮融资,估值上升至26亿美元。本轮融资由三星证券和韩国风投基金 AFW Partners领投,贝索斯投资公司Bezos Expeditions、LG电子和富达等跟投。


Tenstorrent由“硅谷芯片传奇”Jim Keller领导,他曾在苹果、特斯拉和AMD等公司担任要职,成功主导过多款重要芯片的研发。Tenstorrent自成立起就专注于研发能与英伟达竞争的AI芯片,从而打破英伟达在AI芯片市场的主导地位。该公司计划推出经济实惠的GPU替代方案,旨在利用开源技术与标准化组件来降低对昂贵组件的依赖,以此大幅提升成本效益。


3. AI基础设施公司Nebius获7亿美元融资,英伟达参投


AI基础设施公司Nebius宣布获得7亿美元(约合50.97亿元人民币)的融资,投资者包括NVIDIA、Accel以及由Orbis Investments管理的账户。


Yandex创办人兼执行长Arkady Volozh在以54亿美元分拆Yandex国内、国际资产后,创立了Nebius。Arkady Volozh表示,公司最新获得的7亿美元融资将使公司能够利用其专业技术优势,为AI开发者快速构建GPU集群、优化云平台和开发工具,覆盖从模型训练到部署的整个流程,从而全面提升AI工作效率。得益于此次融资,Nebius对财务预测更为乐观,截至2025年底的公司年化营收被调整为7.5亿-10亿美元间,区间下限原本仅5亿美元。


4. AI机器人AMP Robotics完成9100万美元的D轮融资,Congruent Ventures领投


AI机器人分拣供应商AMP Robotics宣布获得9100万美元的D轮融资。本轮融资由Congruent Ventures领投,红杉资本、XN、蓝地资本、自由互惠投资、加州州立教师退休系统(CalSTRS)、惠灵顿管理公司、Range Ventures和Tao Capital Partners等新老投资者跟投。


AMP Robotics结合人工智能算法和物理机器人,以实现高效的废料分类、拣选和放置。公司旨在利用该技术降低劳动力成本、最大限度地提高废物价值以及实现世界回收基础设施现代化。目前,公司已经在北美、亚洲和欧洲部署了三个全规模设施和400多个AI系统。其AI系统已识别1500亿件物品,并引导分拣超过250万吨可回收物。AMP Robotics为废物分拣提供了变革性解决方案,改变回收行业的基本经济模式。


5. AI集成平台企业Yurts公司获4000万美元的B轮融资,XYZ风险投资领投


AI集成平台企业Yurts公司宣布完成4000万美元的B轮融资,本次融资由XYZ风险投资领投,Glynn Capital、Nava Ventures、Bloomberg Beta和Mango Capital等跟投。


Yurts是一个专为国防等高安全性企业设计的AI集成平台。该平台通过充当 LLM 与机构和企业使用的 AI 应用程序之间的中介,确保在遵守管理机密信息的法规的基础上,于在遗留系统中安全部署 AI,为领导和外勤人员提供有力的洞察和决策能力。目前,Yurts 的解决方案以及在制造业和航空航天等领域取得一定进展。Yurts表示这笔资金将用于扩展Yurts在生成式AI技术领域的能力,特别是在国防、政府和企业客户中的集成应用。


本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。


关于阿尔法公社