问AI · 自动驾驶如何借AI实现质的飞跃?
本文转载自微信公众号:中信建投证券研究
文|黄文涛 阎贵成 程似骐 崔世峰 贺菊颖 黎韬扬 刘双锋 刘永旭 庞佳军 陶亦然 王在存 许琳 许光坦 杨艾莉 叶乐 应瑛 于芳博 袁清慧 赵然 朱玥
中信建投证券研究发展部重磅推出《AI新纪元:砥砺开疆・智火燎原》500页深度报告,40万字深度解析,以全球化视野系统解码全球人工智能产业最新发展脉络。本文是报告第四章:人工智能端侧发展趋势及展望。
四、人工智能端侧发展趋势及展望
4.1 AI +汽车:自动驾驶发展趋势及展望
4.1.1 智驾算法从端到端迈向VLA
自动驾驶汽车是一种结合传感器、摄像头、雷达和AI的车辆,AI是自动驾驶汽车突破的最大力量。自动驾驶汽车的核心在于计算机视觉和深度学习,自动驾驶汽车使用高分辨率的摄像头和传感器等,结合计算机视觉来检测汽车周围的情况,通过深度学习算法让汽车对周围情况/障碍做出反应。自动驾驶分为5个层级:1级自动驾驶配备防抱死制动系统(ABS)和巡航控制系统;2级对应半自动驾驶,这个级别上,车辆可以直行,在车道内自行控制与前方车辆的距离;3级对应有条件的自动驾驶,在某些时刻,汽车可以接管所有驾驶功能;4级是一种完全自主的状态,驾驶员不必观察周围的交通情况;5级是真正意义上的自动驾驶,可以在所有条件下自主运行而不需要司机。3级及以上的自动驾驶系统必须依赖人工智能进行突破,人工智能是当前自动驾驶汽车突破的最大力量。
逻辑上,自动驾驶系统需要完成感知、决策、执行3大任务,分别对应架构上的传感器、车载智能计算平台、执行系统三个部分。1)AI技术使得自动驾驶汽车能够通过摄像头、雷达和其他传感器收集环境数据,解决环境识别(周边环境如何)和自身定位(在哪里)问题。2)基于收集到的数据,AI需要预测接下来会发生的情境,决定下一步的行动,并对实施过程进行规划。3)AI最终需要控制实际的车辆操作,如转向、加速和制动,确保车辆按照预定的路线安全行驶。
以特斯拉为锚点,自动驾驶技术经历了从CNN、BEV+Transformer到占用网络再到端到端的演进。2016年以前,特斯拉的自动驾驶系统依赖Mobileye提供的软硬件。2016年特斯拉和Mobileye合作关系破裂,硬件端转向英伟达,同时自研软件算法。此后,特斯拉通过设计多任务学习HydraNet架构,在进行特征提取的同时能进行交通灯检测、车辆避让等多项任务,节省了训练和计算资源。2020年是一个转折点,特斯拉引入BEV+Transformer算法,解决了CNN算法在BEV(鸟瞰图)遮挡区域预测问题,优化了特征级融合,减少了对人工标注的依赖。2022年,特斯拉继续创新,引入时序网络,将BEV升级为占用网络(Occupancy Network),可以使用多个摄像机拍摄的图像进行3D处理,提升了动态环境下的感知能力。2023年,特斯拉发布FSD V12版本,使用端到端技术,进一步带动智驾算法性能提升。
端到端架构的核心是全局优化与数据驱动。传统模块化方案需将驾驶任务拆解为感知(识别物体)、预测(判断他车意图)、规划(生成路径)等独立模块,模块间依赖人工定义的接口(如边界框、车道线方程),导致信息损失与错误累积。例如,感知模块可能因未识别施工锥桶而引发规划失误。端到端大模型相比过去的算法有四个重要特点及优势:1)数据驱动:过去是靠写规则去定义自动驾驶,现在是由数据驱动,每看100-150万个视频片段,效果会有明显提升;2)上限高:大模型的涌现能力目前看在自动驾驶中也有体现,意味着把参数量做大,能解决过去自动驾驶过程中一些难解决的驾驶行为;3)计算效率提升:端到端模型将传统数十个独立模块集成至单一网络,消除信息传递延迟,因此推理时延缩短至毫秒级,进一步推动城市NOA等高阶功能落地提供技术基础;4)驾驶体验逼近人类:过去规则定义下的自动驾驶很生硬,目前体验更加类似于人类驾驶的感受,从而降低了接管次数。
特斯拉FSD v12版本率先实现端到端,行驶体验明显提升。马斯克称FSDv12是完全端到端,FSDv12完全是由神经网络训练而成,没有任何一行人工写的规则代,通过分析数百万个视频剪辑以及数十亿帧人类驾驶汽车的视频进行训练,取代了超过30万行的C++代码,代码量大幅减少至2000行左右。马斯克称,控制是全自动驾驶最后一个难题,FSD v12使用AI替代传统控制模块使得控制代码减少约2个数量级。在实际驾驶场景中,FSD v12表现出诸多亮点。在高速场景下,车辆的变道行为及时且自然,能提前0.7英里规划车道变更,为下高速或路口转向做好准备。在城市道路中,它能够应对红绿灯、车道变更和合流决策等复杂情况,还能有效执行有红绿灯控制的左转和无保护左转,车辆的执行能力得到了提升,变道时机把握更准确。此外,它在减速带处理上表现出色,会提前适当减速。
特斯拉FSDV13.2进一步升级,充分利用AI4硬件能力。特斯拉推送FSDv13.2,采用了和SpaceX火箭同源的代码,特斯拉人工智能软件副总裁AshokElluswamy将此次发布描述为一次重大飞跃。FSDv13.2最重大的功能之一是“park-to-park”功能。特斯拉车主可以通过按下新的“StartFSD(Supervised)”按钮,车辆就能从停车档换入行驶档,FSD还具备换挡能力,不仅可以倒车,还可以在停车、前进、倒车三个模式之间进行切换,以到达目的地。在安全性方面,FSDv13.2改进了防碰撞的奖励预测,并优化了相机清洁功能,确保驾驶过程中的视野清晰。该版本同时可以在车主允许的条件下收集车辆音频片段,以便车辆将来可以通过声音检测紧急车辆。FSDv13.2引入了36Hz的全分辨率AI4视频输入,结合原生AI4输入和全新的神经网络架构,使得系统能够更高效地处理来自车辆传感器的数据;数据规模扩大了4.2倍,训练计算规模更是达到了原来的5倍;实现了从视频输入到车辆控制的延迟降低2倍。
目前端到端算法可分为一段式端到端和两段式端到端两种架构:一段式端到端架构将整个任务视为一个整体,通过一个统一的神经网络模型直接从输入到输出进行映射,训练数据通常包括大量的输入输出对,如数百万张图像及对应的转向、加速等操作数据。这种架构的优势在于模型结构简单,训练过程相对直接,能够学习到输入与输出之间的复杂非线性关系,但其局限性在于若任务复杂,中间过程难以干预和解释,且对数据质量要求极高,少量噪声数据可能导致整体性能大幅下降。
而两端式端到端架构则是在一段式的基础上进行了改进,将任务分解为两个阶段,先通过一个端到端的感知模块对输入数据进行处理,提取关键特征;然后再将感知结果传递给另一个端到端的决策模块,决策模块基于感知信息生成最终的输出,如车辆的行驶决策,训练数据包含各种复杂场景下的感知信息与对应的最佳决策数据。这种架构的优势在于能够分别优化感知和决策过程,提高了模型的可解释性和灵活性,便于针对不同部分进行针对性改进,且降低了对单一数据集完整性的依赖。
在自动驾驶领域,VLA(视觉-语言-动作模型)是发展方向之一。它通过融合视觉信息(如摄像头图像、雷达数据等)和语言信息(如地图描述、交通标志文本、驾驶指令等),使自动驾驶系统对周围环境的理解更全面、更深入。例如,VLA可结合交通标志的视觉图像和文本信息,准确理解其含义,还能融合激光雷达点云数据和地图信息,在夜间或恶劣天气等复杂环境下增强感知能力,提高目标检测和车道识别的准确性。
VLA在场景理解与语义推理方面也表现出色,它能从大规模数据中学习复杂的语义关系,理解如“前方施工,请绕行”等交通标志的语义,并据此规划合理路线。在端到端导航与指令理解中,VLA能理解自然语言的导航指令,如“沿着这条路开2公里,然后在红绿灯处右转”,结合视觉环境信息,为驾驶员提供更人性化、更灵活的导航体验。
VLA本质是构建一个具备物理世界理解能力的“多模态世界模型”。其架构创新体现在三个层面:
预训练阶段:在云端构建视觉与语言深度融合的基座模型。以理想汽车方案为例,其VLA模型达320亿参数,通过海量驾驶场景数据(高清图像、3D点云、导航指令)训练,建立“交通语言-视觉场景”的联合表征。
蒸馏部署阶段:将云端大模型压缩为可车载运行的端侧模型(如3.2B参数)。采用MoE(混合专家)架构平衡效率与精度,确保在Orin-X芯片上以40Hz帧率实时运行。
行动学习阶段:通过模仿学习与强化学习赋予模型行动能力。其中RLHF(人类反馈强化学习) 是关键,系统通过人类接管数据迭代优化,学习安全边界与驾驶偏好。而扩散预测模块(Diffusion Prediction)使模型能预演未来4-8秒场景变化,为决策提供时域支持。
2025年被认为是VLA上车的元年,国内外一些车企和科技公司加大了在该技术领域的布局和投入。元戎启行于2025年1月宣布与某头部车企合作,基于英伟达Thor芯片推出VLA量产车型,并计划在同年交付消费者,其还透露将在Robotaxi领域探索VLA应用。此外,理想、小鹏、蔚来等车企也在聚焦世界模型与VLA融合,计划2026年实现城市道路VLA部分场景落地。华为则侧重规则算法与VLA结合,内部预研项目正在推进中,积极探索相关技术的应用。
在国外,Waymo的端到端多模态算法EMMA以及国外创业公司Wayve正在创新和测试探索VLA,Wayve的测试车队已从欧洲扩展到北美,还与Uber达成合作协议,未来可能进入Uber平台。从技术应用的情况来看,目前VLA技术在部分低速场景,如停车场、园区等已经开始小规模试点应用,采用“VLA+规则算法”并行架构,并通过安全检测机制筛选输出轨迹。
在中国市场,智驾技术商业化发展的现状是“单车智能”和“车路云”协同中国方案这两种技术路线并存。在以单车智能为主的技术路线中,又呈现渐进式和激进式两种发展路径。2024年1月,工业和信息化部、公安部、交通运输部等五部委联合印发相关通知启动应用试点,7月公布了20个试点城市名单。这些城市从南到北、由西至东覆盖全国,目标是建成低时延高可靠的网联云控基础设施,促进多场景自动驾驶规模化应用,探索形成“车路云一体化”投建运新型商业模式,形成统一的标准与测试评价体系。在试点推动下,多地车路云一体化建设迅速升温。北京已发布近100亿元“车路云一体化”新基建项目规划;武汉“车路云一体化”重大示范项目获武汉市发改委批准,备案金额达170亿元。
目前,多地已经开展了云控基础平台建设,如北京亦庄实现了60平方公里的车路云一体化功能覆盖,部署智能网联车辆超600辆,累积测试里程超1300万公里,服务出行超100万次,智能网联数据已集成至主流导航地图和车载终端;上海嘉定建成全国首张IPV6+智能网联网络,完成智慧路口近300个,部署5G和北斗定位基站,覆盖466平方公里,自动驾驶车辆测试和示范应用里程达1079万公里,嘉定区开放1117公里测试道路,推动自动驾驶出租车商业化运行;武汉经济技术开发区完成了106公里道路智能化改造,开放750公里测试道,建设北斗空间定位网,实现全域无人驾驶开放,累计发放测试牌照458张,测试里程超300万公里,百度萝卜快跑实现全国首个全无人商业运营试点;无锡超过1700个交通路口的信号灯已完成智能化升级,实现了信号灯联网导航和危险预警等超过100个车联网应用场景的部署,数字孪生平台利用路侧传感器实时监测天气和交通事故等道路状况,5G智能驾舱技术在紧急情况下远程操控自动驾驶车辆,确保行车安全。
4.1.2 智驾平权带动智驾芯片起量
在汽车行业加速变革的 2025 年,“智驾平权” 成为中国车厂的重要战略方向,有望推动高阶智驾下沉至 10 万元级车型。比亚迪率先吹响 “全民智驾” 的号角,凭借 “天神之眼” 智驾系统,以极具颠覆性的策略将高阶智驾带入市场。此外,吉利发布千里浩瀚智驾\奇瑞推出了“猎鹰智驾”,广汽集团上市了搭载“星灵智行”系统的新车,长安、长城、零跑、北汽等车企也纷纷跟进,密集布局智驾领域,核心目标便是争夺10万-15万元的智驾汽车市场份额。
随着车企的积极推动,15万以下车型的城市NOA渗透率预计将迅速提升。根据佐思汽研数据,2024年1月,20-25万元价位段汽车的城市NOA搭载率仅有2.1%;至2024年10月,该值则升至24.7%。这一变化标志着城市NOA正加速普及,20-25万价位段已成为车企及第三方智驾厂商竞争的前沿阵地。而2025年比亚迪推动的“智驾平权”,极有可能推动高阶智驾下沉至10万元级车型,进一步扩大城市NOA在15万以下车型中的普及程度。
城市NOA渗透率的显著提升,也带动了对中高算力芯片的强劲需求。随着智能驾驶的深入发展,汽车传统的分布式电子电气架构逐步向集中式架构转变,在域控制器时代,高算力、高性能、高集成度的异构SoC芯片成为智能驾驶的核心关键。步入2025年,端到端聚焦于VLA与世界模型,“车位到车位”智驾功能已成为各大车企竞争的核心焦点,这无疑对芯片算力、方案商能力以及主机厂自研等能力均提出了更为严苛的要求。
英伟达是全球自动驾驶芯片领域的头部企业,其DRIVE系列芯片依托先进制程工艺与高算力优势占据高端市场。DRIVEOrin采用7纳米制程,算力达254TOPS,已被理想、蔚来、小鹏等多家车企应用于高端车型。升级版DRIVEThor算力高达2000TOPS,进一步提升计算效率与多系统兼容性,其700-800TOPS算力的Thor-S预计2025年量产。地平线作为国内自动驾驶芯片代表企业,征程系列芯片基于自主研发的BPU架构,在能效比和场景适配性上具备特色。征程6系列最高算力560TOPS,采用第四代“纳什”架构,通过对国内复杂道路环境、交通规则的优化,为比亚迪、长安等本土车企提供定制化解决方案。
汽车电子电气架构双域融合正成为技术突破的核心赛道,这种融合并非简单的功能叠加,而是通过异构计算架构整合、实时操作系统虚拟化、跨域数据协同等前沿技术,构建高度集成的中央计算生态。随着汽车电子电气架构从分布式向中央计算架构的深刻变革,智能驾驶芯片迎来了全新的挑战与要求。这一变革不仅标志着汽车内部信息处理模式的根本性转变,还促使算力资源高度集中,以提升系统效率和响应速度。在此背景下,智能驾驶芯片需要具备更高的集成度、更强的算力以及更优异的安全性能。它们不仅需要满足复杂路况下的实时数据处理与分析需求,还需在集成更多传感器信息和执行机构控制指令的同时,确保数据传输的稳定性和安全性。此外,随着“舱驾一体”概念的逐步实现,智能驾驶芯片还需在硬件上实现更广泛的兼容性,以便与智能座舱等其他车载系统无缝对接,共同打造更加智能、安全的驾驶体验。
外资芯片占比较高,自主厂商逐渐起量。根据盖世汽车的数据显示,2023年智驾域控芯片搭载量排名前四的分别是特斯拉FSD芯片、英伟达Orin、Mobileye EyeQ4H和Mobileye EyeQ5H,装机量分别为:1,208,402颗、1,147,311颗、201,437颗和175,246颗,对应市场份额分别为34.4%、32.6%、5.7%和5%。特斯拉FSD和英伟达Orin占比近七成。自主厂商也在不断突围。地平线、华为等厂商紧随英伟达、特斯拉其后,2023年地平线J5出货量20万颗,市占率为6.1%,位列第三,2024年华为昇腾610以9.5%市场份额位列第三。
4.1.3 L2+前装量产方案:纯视觉方案与多传感器方案融合并行,ODD逐步拓展,特斯拉FSD最新版本应用于Robotaxi
感知层:纯视觉方案与多传感器方案融合并行,激光雷达渗透率提升。当前主机厂感知方案呈现“纯视觉派”与“多传感器融合派”并行的技术格局。纯视觉方案传感器方案更为精简,核心依赖高分辨率摄像头与毫米波雷达,因此硬件BOM成本相对更低,但对软件算法要求较高,目前特斯拉为采用该方案的代表性玩家。多传感器融合多采用摄像头+毫米波雷达+激光雷达的组合方案,目前国内大多数主机厂的高阶智驾功能都选择了在多传感器方案上落地。随着激光雷达的成本下探,多传感器方案的配置范围也逐步扩大,例如零跑B10在12万级别实现激光雷达搭载。
功能层:ODD逐步扩展至全场景。当前智能辅助驾驶功能正沿着“场景复杂度逐级攀升、覆盖范围持续扩展”的路径快速发展:从最初高速NOA在结构化道路实现自动变道、匝道通行等基础功能,到城市NOA突破红绿灯识别、无保护左转等城市复杂场景,最终向全场景D2D进化,打通地库—城区—高速的全链路高阶智能辅助驾驶,并融合自动充电、跨楼层泊车等终极场景。
特斯拉FSD最新版本应用于Robotaxi,打开渐进式发展智驾方案的新层级。特斯拉于2025年6月在德州奥斯汀启用Robotaxi限量运营服务,并同步导入升级版Full Self-Driving(FSD)系统。 相较目前市售车款搭载的FSD,该系统在感知能力、路径规划与无人驾驶营运条件方面均有显著提升。
6月27日,埃隆·马斯克宣布,公司已完成全球首例无人驾驶新车交付:一辆Model Y SUV从美国德州奥斯汀附近的超级工厂启程,跨城驶向客户家中,途中经过高速公路,整个过程车内无人员,亦无远程操控,真正实现了“从工厂到车主车库”的全自动驾驶交付。这是全球首例在公共高速路上实现车内无人、无远程控制的自动驾驶,这辆Model Y在此次行程中最高时速达到72英里(约116公里)。
中低阶智能驾驶全面下沉,2025年逐步成为新车标配元年。2025年比亚迪将高速NOA功能下探至8万元车型,小鹏城市NOA覆盖至15万元级市场,其余主流车企也将城市NOA功能下沉至10-20万元车型,高阶智能辅助驾驶的科技平权愈发显露。2025年2月,比亚迪召开天神之眼智驾发布会,宣布全系标配智能驾驶,掀起智驾平权浪潮,吉利、奇瑞等主机厂纷纷跟进。25年中阶智驾全面爆发,我们认为核心原因在于:1)技术路线已经相对成熟。经过特斯拉、新势力等智驾先行者的前期探索,以高速NOA为代表的中阶智驾功能落地及技术路线已相对成熟,传统主机厂能够实现跟进;2)智驾系统成本下探与规模效应提升形成正向循环。随着智驾硬件方案逐步成熟、成本下探,越来越多的车型可以承受智驾带来的BOM成本提升,同时中低价位段车型的巨大规模效应也能进一步推动智驾成本的下探;3)主机厂竞争焦点向智能化升级。主流主机厂已基本补齐电动化产品序列,需要通过智能化产品塑造差异化卖点提升市占率。
比亚迪全系标配天神之眼,推动高速NOA下沉至主流市场。2月10日,比亚迪召开智能化战略发布会,发布了高阶智驾系统“天神之眼”,实现全系产品智能驾驶标配,且换新产品价格体系与2024款保持一致,加量不加价,真正实现智驾平权。天神之眼分ABC三大序列:
1)天神之眼 A - 高阶智驾三激光版(DiPilot 600),主要搭载于仰望品牌;
2)天神之眼 B - 高阶智驾激光版(DiPilot 300),主要搭载于腾势品牌、汉唐高配版;
3)天神之眼 C - 高阶智驾三目版(DiPilot 100),王朝海洋全系标配。
4.1.4 L4以激光雷达为核心传感器, Robotaxi/Robotruck/Robobus等多种形式协同发展。
感知层:激光雷达为核心传感器。L4与L2在技术路线上存在根本差异。L2依赖模仿学习(Imitation Learning),即通过复制人类驾驶行为优化系统,而L4采用强化学习(Reinforcement Learning),要求机器自主理解驾驶逻辑。“L2的极限是‘车位到车位’,但永远无法跨越人类接管的天花板;L4的目标是‘全场景责任接管’,安全标准必须超越人类。”,而要实现这一目标,车辆必须具备极高的安全冗余,而激光雷达作为目前车载传感器中兼备探测距离远、探测精度高等优势的传感器,在L4级别的感知层中占据着至关重要的地位。例如广汽埃安与滴滴自动驾驶联合推出的全球首款前装量产L4级Robotaxi全车配备33个传感器,其中包括10颗激光雷达(4颗长距+6颗补盲)、12颗摄像头、4D毫米波雷达、红外传感器及声音探测器。
Robotaxi:采用多颗激光雷达作为核心传感器,利用远端安全员形式可实现限定范围内的L4级自动驾驶。例如小马智行基于丰田赛那推出的第六代Robotaxi车型配备了4颗固态激光雷达+3颗补盲激光雷达+3颗毫米波雷达+11颗摄像头的配置;文远知行与江铃汽车合作打造的Robotaxi车型配备了20+高性能传感器,超1300TOPS的AI算力。目前文远知行在广州、北京、南京、苏州、鄂尔多斯、阿布扎比、苏黎世等城市实现车队运营。
Robotruck:编队行驶提升运营效率,为实现规模化的自动驾驶货运奠定基础。小马智行与三一重卡合作打造的自动驾驶重卡面向干线物流场景正向设计,具备超远距离、全景覆盖的感知能力,传感器布局采用一体式弧形设计(Sensor Arc),全车配备6颗激光雷达,3颗毫米波雷达,6颗摄像头并配备传感器清洁系统。小马智卡发布编队自动驾驶解决方案“驼灵”,已在北京、广州获准开展卡车编队的自动驾驶测试。编队方案可实现一辆领航车和多辆跟随车的行驶,车辆均为L4级自动驾驶卡车,仅需要一名领航车安全员监督。“驼灵”方案极大地降低运营成本,提高运输效率,为实现规模化的自动驾驶货运奠定基础。
Robobus:固定路线为主,取消驾驶室设计,从封闭园区向开放道路拓展。Robobus的运营特点为以固定路线为主,且主要是园区内部或城市道路,行驶速度较低,ODD比Robotaxi更简单。例如文远知行推出的全球首款前装量产自动驾驶小巴采用了0驾驶舱设计,(无方向盘、刹车踏板、油门踏板),最高车速40km/h,可容纳8-10人乘坐。从园区、景区接驳渗透到城市社区、地铁接驳等开放道路,Robobus大规模激活了城市交通和治理的“末梢神经”,随着自动驾驶技术、运营线路方案的不断成熟,Robobus有望进一步提高公共交通出行分担率,探索智慧出行更多可能。
4.1.5 乘用车:L2+智能驾驶功能快速普及,燃油车和中低端车型有提升空间
中国乘用车智能驾驶(L1\L2\L2+)渗透率合计约60%,L2+渗透率自2025年以来呈现加速上行趋势。近年来,中国乘用车智能驾驶行业渗透率呈现快速提升态势,政策、技术与产品共同驱动行业迎来升级。根据佐思汽车研究数据,中国乘用车L1、L2、L2+合计渗透率从2022年1月的43.53%,提升至2025年4月的59.51%,变化幅度为+15.98pct。其中,L2、L2+渗透率持续提升,L1渗透率出现下滑,呈现更高级别智能驾驶占比提升的特点。2022年1月至2025年4月,中国乘用车L1、L2、L2+市场渗透率分别从15.9%、24.7%、3.0%变化至5.6%、39.7%、24.3%,变化幅度分别为-10.3、+15.0、+21.3pct。2025年,随着智能驾驶产业政策进一步放开,高算力芯片、激光雷达、域控制器等产品采购成本进一步下降,行业高阶智能驾驶渗透率有望进一步提升。
50万元以上车型L2及L2+功能接近标配,未来L2及L2+渗透率提升可能主要来自25万元以下的市场。从价格带来看,高级别智能驾驶的渗透率与车型价格强相关,车型价格越高,配备L2级别及以上智能驾驶功能的概率就越大。2025年4月,价格分别在15万元以下、15-25万元、25-35万元、35-50万元以及50万元以上的车型中,L2级别及以上的渗透率分别为41.92%、82.04%、91.40%、83.09%、97.88%,50万元以上车型基本实现了标配。2022年1月,价格分别在15万元以下、15-25万元、25-35万元、35-50万元以及50万元以上的车型中,L2级别及以上的渗透率分别为14.05%、41.5%、47.2%、43.2%、67.3%。
增程和混动车型L2及L2+功能配套率较高,未来L2及L2+渗透率提升可能主要来自燃油车型和纯电动车型。从燃油类型来看,不同燃油类型的乘用车其配备L2及以上智能驾驶功能的渗透率不断提升,其中增程车型、插电式混动车型配备L2及L2+功能的概率更高,2025年4月渗透率分别为99.62%、74.46%,纯电动车型、燃油车型渗透率分别为58.78%、60.62%。2022年1月,增程车型、插电式混动车型、纯电动车型和燃油车型L2及L2+渗透率分别为89.8%、61.7%、35.3%、25.1%。
4.1.6 商用车:智能驾驶渗透率低于乘用车,处于渗透率快速提升初期
预计2025年商用车L1&L2渗透率合计约20%,2030年渗透率合计将达到77%。商用车作为一个生产工具,路况条件、操作便利性与乘用车存在明显区别,这也导致了商用车智能驾驶渗透率远低于乘用车。在2024年中国电动汽车百人会论坛上,智家科技总经理容力指出,2022年中国商用车L1、L2智能驾驶渗透率分别为3%、16%,预计2025年将达到7%、20%,2030年将达到50%、27%。
智能网联货车或将在2025年实现高速公路有条件自动驾驶,2030年实现城市道路高度自动驾驶。根据《智能网联汽车技术路线图2.0》,到2025年左右,智能网联货车要实现高速场景DA、PA级自动驾驶技术规模化应用,CA级自动驾驶货运车辆开始进入市场。限定场景HA级自动驾驶实现商业化应用,高速公路队列行驶开始应用等;到2030年左右,智能网联货车要实现城市道路HA级自动驾驶技术开始应用,高速公路HA级自动驾驶技术实现商业化应用,限定场景HA级自动驾驶、高速公路队列行驶实现规模商业应用,典型应用场景覆盖全国主要城市的城市道路;到2035年左右,智能网联货车要实现FA级智能网联货运车辆开始应用。
智能网联客车或将在2025年实现限定场景自动驾驶,2030年实现城市道路自动驾驶。智能网联客车方面,2025年左右,限定场景公交车(如BRT)CA级自动驾驶技术商业化应用、限定场景接驳车HA级自动驾驶技术商业化应用;2030年左右,HA级自动驾驶接驳车规模化应用,限定场景HA级自动驾驶公交车(BRT)商业化应用,HA级自动驾驶城市道路公交车开始进入市场;2035年以后,实现城市道路公交车HA级自动驾驶技术规模化应用,高速公路客车HA级自动驾驶商业化应用。随技术发展,逐步实现全路况条件下的自动驾驶。
4.1.7 执行系统:线控底盘大规模上车,成为自动驾驶安全性基石
汽车制动是自动驾驶执行层的关键组成部件。传统的制动系统主要由液压式构成,依赖发动机提供的真空助力驱动液压管路传递制动力,从1950年代迅速取代机械制动,直到2020年代都是核心主流方案。液压制动具备制动平稳、维护成本低等明显优点,但是随着汽车电动化乃至智能化时代到来,液压制动的核心缺陷被显著放大:1)真空源依赖:纯电动车因无发动机,需加装电子真空泵补偿真空助力,但该方案在高原低压环境下性能衰减明显,且存在噪音大、寿命短等问题。制动系统作为安全件,车规级要求苛刻,零部件需要在各种环境下均可靠工作;2)响应延迟:原理上,液压制动需要机械传动链条实现制动,导致制动响应时间长达400-600毫秒,难以满足智能驾驶对实时控制的严苛需求;3)能量回收瓶颈:制动踏板与液压系统刚性耦合,对于电动车而言,制约了电机制动力与机械制动力的高效协调,能量回收效率受限,影响电动车的续航里程。液压制动无法适应汽车电动化、智能化的需求。
制动系统正在从传统的液压制动向线控制动(Brake-by-Wire)升级,成为智能驾驶的安全性基石。线控制动成为汽车电动化时代优选,通过解耦传统机械连接,以电子信号和电控执行实现汽车制动,其核心原理在于将驾驶员制动指令转化为数字信号,由电控单元(ECU)实时计算并驱动执行器生成制动力,实现从“人直接控制机械力”到“软件调度制动力”的变革。
线控制动解决了液压制动的弊端:1)电子信号替代真空源依赖,无需补偿真空助力。线控制动通过电子信号取代真空助力与液压管路,彻底解决电动车的真空源缺失问题,同时使系统重量减轻30%;2)响应延迟减少,智驾控制的实时性提升:响应速度减少到150毫秒内,因此紧急制动距离可以缩减约40%,提升驾驶安全性。同时相比液压500毫秒级制动,能支持智能驾驶的实时控制需要。此外,线控制动可以和ADAS域控制器深度集成;3)能量回收效率提升:通过制动踏板与轮缸压力的完全解耦,实现电机制动力与机械制动力的精准协同,WLTP测试中提升32%能量回收效率(单次循环多回收160Wh),增加电动车续航约50-80公里。线控制动逐步实现软件控制汽车,成为高阶智能驾驶的安全基石。
线控制动成为主流方案,汽车电动化驱动渗透率快速提升。2018年中国线控制动渗透率为3.3%,2024年线控制动渗透率为50.8%,已经超越液压制动成为市场主流。分结构来看,新能源车成为快速渗透核心驱动力:2018年燃油车/新能源车线控制动渗透率分别为3.1%/7.0%,2024年燃油车/新能源车渗透率已经分别为19.0%/90.0%,新能源车基本完成渗透。根据盖世汽车预测,2025年线控制动渗透率有望达到65%,市场规模达到247亿元。2030年线控制动渗透率有望达到95%,市场规模达到347亿元,成为快速增长的赛道。未来线控制动仍有明显结构化增量:1)新能源车渗透直接拉动线控制动渗透,线控制动解决电动车真空源缺失痛点,基本成为新能源车标准配置;2)高阶智能驾驶商业化落地,低时延需求。ADAS车型占比接近50%,AD车型占比约10%,制动系统向150ms和更快响应速度迭代;3)国产替代成本优势约15%,推动低价格带车型普及。目前本土供应商如伯特利、弗迪动力的One-Box方案较外资价格低15–20%,推动10万级经济车型加速普及。
目前各车企的线控制动方案仍以外资供应商为主,由Two-Box向One-Box演变。博世早期凭借Two-Box方案(iBooster+ESP)切入新能源市场,通过冗余设计满足高阶智驾安全要求,但Two-Box方案采取分体式结构,将电子助力器和ESC系统分开布置,两套系统相互独立、互为冗余,但是缺点明显,导致整套线控制动成本高企(单车价值约2000元)且能量回收效率受限;而随着集成化趋势明确,Two-Box迅速向One-Box技术演变,以博世IPB、大陆MK C1等方案通过电机直驱主缸、融合ABS/ESC功能,实现体积缩小30%,制动回馈达到0.3-0.5g减速度,并且成本下降到约1600元。根据高工智能汽车数据,2024年中国市场乘用车前装标配One Box线控制动方案交付818.82万辆,同比增长73.25%,前装搭载率35.72%;而Two Box线控制动方案交付357.12万辆,同比增长仅4.01%,前装搭载率下降至15.58%。
外资供应商凭借先发优势占主流,自主品牌占比仅30%,One-Box方案超车破局。博世等外资厂商主导EHB技术路线演进凭借先发优势,实现技术卡位。但国内主机厂通过自供/第三方国产供应商实现自主品牌市占率提升。目前线控制动解决方案仍在快速迭代,国产One-Box迎来超车机会,涌现出了伯特利,弗迪动力等优质国产供应商。
根据高工智能汽车,2022年中国本土供应商线控制动市占率仅8%左右,2024年已经超过30%。而在One Box领域,国产供应商市场占有率从2021年的1%,快速提升到2024年的38%。
4.1.7.1 比亚迪:弗迪动力BSC高度集成,垂直整合成本优势显著
国内车企的线控制动解决方案分为自研(比亚迪)和第三方供应商(伯特利等)两类。比亚迪通过全资子公司弗迪动力自研BSC线控制动,实现技术闭环。弗迪动力制动安全控制系统(FinDreams Powertrain Braking Safety Control System,简称BSC)作为高度集成的One-Box方案,凭借全解耦设计与垂直整合成本优势成为主
机厂自研方案的典型代表。BSC方案通过将电动真空泵、制动主缸、ESP等模块深度集成,通过600W高功率无刷电机驱动活塞泵,实现140ms内建压至10MPa的毫秒级响应。
BSC系统优先电机制动,以液压制动作补偿,电液平衡减速度可达0.5g,百公里能量回收提升0.5kWh以上,带来高效的能量回收,增加续航里程的体验。BSC2.0在WLTC工况测试下,能有效提高续航里程约20%。
弗迪BSC高度整合并依托头部主机厂规模效应,实现成本优势。比亚迪在汽车零部件领域广泛布局,物料采购、生产验证、整车匹配环节成本控制能力显著优于外资企业,同为One-Box线控制动解决方案,比亚迪BSC单价较博世IPB低15-20%,预计价值量在1400元左右。
弗迪动力的绝大部分BSC线控制动自供比亚迪,且受限于主机厂间竞争,其对其他主机厂的吸引力有限。第三方线控制动供应商迎来机会。
4.1.7.3 下一代线控制动:EMB响应时间更短,各解决方案量产在即
电子机械制动(EMB)有望成为下一代线控制动解决方案。与当前主流方案EHB不同,EMB彻底舍弃液压管路技术路线,通过电信号直驱轮端电机生成制动力。驾驶员踩下制动踏板后,位移传感器将信号传输至ECU,经动态算法解算后控制嵌入轮毂的电机驱动滚珠丝杠机构,推动摩擦片压紧制动盘,全过程属于纯电控。
智能驾驶升级与法规突破驱动线控制动行业增长。2026年《GB21670-2025》新规落地首次将电力传输制动系统(ETBS)纳入强制标准,从冗余安全、功能认证到测试方法全面扫清EMB装车障碍。《GB21670》强制要求双独立电源系统及双制动回路的冗余设计,推动EMB系统采用电控+机械备份的架构。叠加底盘域控集成趋势,线控制动有望在2030年实现95%渗透率,增长确定性较强。
EMB具备明显优点,成为L4级自动驾驶的准刚需:1)取消液压管路后,延迟进一步降低至80-100ms。从液压管路变为纯电控后,信号传输延迟近乎于0,制动响应延迟从EHB的140ms降低到100ms以下。同时依托独立四轮电机控制精度,可实现毫秒级动态扭矩分配,为L4+自动驾驶提供0.1g级精准制动调校能力;2)轻量化与集成化。移除液压系统的主缸、管路和液压油后系统进一步减重,操控性进一步提升。高度集成化的设计为底盘留出更大空间。EMB的制动延迟进一步压缩,可以为高阶自动驾驶下的紧急制动提供更多安全冗余,被视为L4/L5级智驾的必备“基建”。
外资零部件巨头及国产头部玩家密集布局EMB,2025年量产在即。2025上海车展中,博世等外资零部件巨头,伯特利、利氪、同驭等本土制动系统头部玩家均展示了EMB领域的最新技术成果,充分表明EMB量产时间表已经进入倒计时。大部分本土企业已经完成两轮EMB冬季测试,量产节点主要集中在2025年底至2026年初。我们认为,本土企业依托更好的成本控制、响应速度等优势,有望在下一代EMB制动弯道超车,实现份额的进一步扩张。
自动驾驶向域控、集成化发展,线控底盘技术配置有望升级,EMB价值量约4000元。目前EHB系统单车价值量约1500-2000元,EMB价值量约4000元,但量产后成本有望明显下降。针对L3/L4级自动驾驶,线控底盘集成方案趋势为“中央传动驱动+EHB+EPS+空气弹簧+CDC/MRC减振器”;针对L5级自动驾驶,线控底盘集成方案趋势为“轮毂电机分布式驱动+空气弹簧+CDC/MRC减振器”。
L4级Robotaxi/Robovan自动驾驶趋势下,线控制动作为执行层关键零部件,未来产业趋势向好,需求仍有明显增量。
4.1.7.4 执行:端到端神经网络成为主流
端到端神经网络逐渐成为自动驾驶执行层主流技术路线。传统模块化架构中,自动驾驶的感知、预测、规划、控制等被划分为独立模块,通过串行处理,最终指导车辆驾驶路线。
而端到端(End-to-End)的核心原理在于,通过单一深度学习模型直接整合感知、决策与控制全流程,输入的是原始传感器数据,如摄像头、激光雷达信号。而输出的直接是车辆控制指令,例如车辆转向角度、油门/刹车信号等等。
相较上一代模块化架构,端到端神经网络的优点明显:1)海量真实数据训练,提升训练效率。传统的模块化系统需要人为设计规则,并对现有数据进行人工数据标注,而端到端可以采用大量真实驾驶数据进行训练,快速降低了数据成本,提升了训练效率。例如特斯拉FSD积累了超过20亿英里的辅助驾驶里程数据,通过规模法则(Scaling Law),更多的数据可以实现更好的驾驶效果,从而持续迭代优化;2)降低信息损耗,全局性能提升:以特斯拉端到端为例通过BEV(鸟瞰视角)与Transformer架构实现多传感器数据融合,在统一特征空间内进行联合优化,端到端模型避免了模块间信息传递的损耗与延迟,代码量明显下降。同时数据越多,越能增强对无保护左转、异形障碍物等复杂场景的泛化能力;3)计算效率提升。端到端模型将传统数十个独立模块集成至单一网络,消除信息传递延迟,因此推理时延缩短至毫秒级,进一步推动城市NOA等高阶功能落地提供技术基础。我们认为端到端能成为新一代自动驾驶执行层技术,主要是其优秀的训练效果,以及“越开越好开”的智驾潜力。
端到端技术已经成为行业主流,核心竞争要素从算法设计向数据和算力储备演变。目前特斯拉FSD、小鹏XNGP等量产系统均采用该架构。以主打智能化卖点,首个国产端到端大模型上车的小鹏汽车为例:小鹏的端到端大模型由三部分组成,分别为 XNet(神经网络)、XPlanner(规控大模型)和XBrain(大语言模型)。其中规控层面XPlanner通过超10亿公里的视频训练来学习人类司机的驾驶策略,替代了传统的数万条人工规则,可以以毫秒级延迟生成动态路径。并且小鹏的端到端驾驶更加拟人化,用户感知到的前后顿挫减少50%,违停卡死减少40%,安全接管减少60%。
部分车企采用规则+AI方式,渐进式迭代智驾系统。完全采用端到端技术路线存在缺点,例如不同驾驶员对同一场景会采取不同策略,面对同样的障碍物,可能采取急刹车或者绕行的不同策略,引发端到端大模型的困惑,解决方案无法实现收敛。同时,大模型“黑盒”特性欠缺可解释性,难以针对性调整。因此华为、理想等部分车企采用了渐进式的智驾系统升级,通过传统的规则系统为安全性兜底,AI模型驱动拟人化决策,尽量实现安全性和效果的平衡。
以理想汽车为例,通过采用“端到端模型+VLM视觉语言模型”双系统混合架构,实现高效决策与安全兜底的动态平衡。双系统的核心设计理念源于诺贝尔奖得主丹尼尔·卡尼曼理论,其中端到端模型对应系统1(快思考),直接处理摄像头、激光雷达等传感器原始数据,并通过BEV和时空记忆模块实现轨迹规划,可以覆盖95%的常规驾驶场景。而VLM模型对应系统2(慢思考),通过规则补充,形成对复杂场景的逻辑推理和控制指令,解决剩余5%的高风险复杂驾驶场景。
相比纯端到端架构,规则+AI具备优势,渐进式演变更适应当前智驾现状:1)传统规则引擎构建安全冗余。VLM模型内的传统规则引擎可以作为参考答案,为端到端大模型提供可验证的决策依据,降低;2)降低算力负担,双系统分工,VLM模型仅在少数复杂场景使用;3)双模型更贴近人类思维模式,可理解性增强。规则+AI类似人脑的快慢思考模式,驾驶逻辑更利于乘客和工程师理解。目前理想汽车和华为系智驾采用了规则和AI并行,用于智驾执行系统。
端到端算法和数据仍在持续迭代,未来端到端智驾能力有望持续进化,成为AI汽车执行系统的关键。
4.2 AI +机器人:人形机器人发展趋势及展望
4.2.1 为什么是“人形”机器人?
人形机器人是AI最有前景的落地方向之一,未来在工业、商业、家庭、外太空探索等领域具有广阔应用场景,将人类从低级和高危行业中解放出来,提升人类生产力水平和工作效率。预计当人形机器人产业迭代成熟之后,所对应的年度市场规模会有数万亿元。
人形机器人采用人形设计出于多种因素考量:①环境适应性:现实中许多场景(如楼梯、工具等)均是根据人体工学设计的,机器人如果是人形就能够在这些场景中直接应用。②任务通用性:人体具备较高灵活度,模仿人类的关节、感官系统让人形机器人更加灵活,可执行多样化任务。③社会接受度:类人外观降低人机交互的心理隔阂,与其他类型相比,未来人形机器人在情感沟通上面临的壁垒更低。④数据可得性:深度仿生意味着可以从人身动作中获取大量的运动数据,能够明显降低深度强化学习等训练方法的难度和所需的训练时间。
特斯拉人形机器人Optimus即坚持仿人结构,Optimus对人的模拟体现在:①外形上,Optimus概念机中机器人身高1.73米,Gen2人形机器人相较上一代体重有所降低,但外形仍然坚持仿人设计;②结构上,关节结构使用通过非线性结构来实现对不同形态下的压力、扭矩控制,进而完成实现流畅动作,在执行器连接中使用模仿肌腱的弹簧设计,手部形态上模仿人类手掌,从而实现高灵敏度以抓取重物和轻薄物体。
4.2.2 人形机器人的发展路径
人形机器人研究起步于双足行走的模仿,在AI时代有望商业化落地。由日本早稻田大学加藤一郎教授率先解决了人形机器人的双足行走问题,至此揭开了人形机器人研究的序幕。行走机构的设计以及相应控制方法的解决推动着人形机器人迈向自主式:1973年,加藤一郎等人在WL-5的基础上配置了机械手以及人工视觉、听力装置组成了自主式机器人WAROT-1,人形机器人的研究也逐渐扩展到人工智能方面。1990年以来,机器人的行走能力、智能化和功能也越来越强大,本田公司的ASIMO是行业的典范。
2010年以来,互联网的发展推动人形机器人受到了更多大众关注,技术也愈发成熟。2015年,Pepper的市售是人形机器人走入大众市场的重大尝试,2021年波士顿动力旗下Atlas的跑酷视频一经发出便收获百万点赞,电动车巨头Tesla也于2021年宣布将推出人形机器人产品“擎天柱”,至此,人形机器人批量生产的商业化时代拉开序幕。2025年1月9日,特斯拉CEO马斯克在CES 2025的连线采访中指出:未来人形机器人的数量可能是人类的几倍;2025年,特斯拉将生产数千台Optimus人形机器人用于内部工厂测试,如果测试顺利,那么2026年产量会提升10倍。
国内重量级玩家不断增多,小鹏、小米等公司入局人形机器人领域。2016年,优必选原型机诞生,腿部拥有12个自由度,实现了多种场景下的行走,2021年Walker X发布,视觉定位导航和手眼协调操作技术全面升级,使得Walker X可以更生动地与人交互,还学会了下象棋。2022年8月,小米首款全尺寸人形仿生机器人CyberOne正式亮相。2023年10月,小鹏推出了自研的人形态双足机器人PX5;2024年11月6日,小鹏汽车自主研发的AI人形机器人Iron亮相。此外,华为等公司积极布局人形机器人领域。2023年6月19日,东莞极目机器有限公司成立,该公司由华为技术有限公司全资持股,注册资本为8.7亿元。
4.2.3 本体目前的发展痛点
“大脑”泛化能力有限,当前应用场景受限。“大脑”能力影响机器人能力上限,在产业链中具有重要地位。大模型的性能高低直接影响机器人的能力范围,具有更强泛化能力的模型将会在更为广阔的非结构化场景下得到应用,拓宽延伸在C端等场景的应用可能。“大脑”方向的高点一直都是各个厂商争抢的高点,为此各个厂商都为自己的具身智能发展配备了优越的大模型,如Figure和1X Technologies曾采用OpenAI的大模型进行任务处理。目前具身大模型快速迭代,但从目前的效果来看,其在泛化能力等方面的发展仍有较长的路要走,人形机器人在单一任务的泛化能力方面取得较好进展,但是多任务、跨任务的泛化能力仍然相对较弱,影响人形机器人落地应用场景表现。
在具身大模型还没有足够泛化、成熟之前,结构化场景的垂类模型可以与具身大模型相向而行,加速具身智能的落地。现阶段具身大模型泛化能力有限,从具身智能落地的角度来看,产业界内部分企业尝试将应用场景做封闭,就是把作业场景分为若干约束条件,形成一个封闭的作业域,并在封闭作业域内实现泛化,那么其数据规模要求将显著下降。这样的方式和世界模型的发展是相向而行的路线,随着具身大模型泛化能力逐步提升,则场景的切割也可以更宽泛。
数据重要性凸显,垂类数据采集方兴未艾。数据是具身智能的“认知基石”,对于具身智能发展具有重要意义。具身智能实现“感知-思考-行动”的闭环,而数据则是这一闭环的核心输入。一方面,具身智能体通过多种传感器采集实时数据,可以构建动态环境的三维表征;另一方面,智能体在与物理世界的交互中产生的轨迹数据等可以转化为行为经验,用于优化后续决策逻辑。同时,数据是具身智能算法迭代的核心驱动力,大规模的数据用于模型训练等可以提升智能体的泛化能力,有助于实现其在未知场景中的自适应调整行为。
目前通用机器人大模型所需数据量极为庞大、且数据获取难度高,导致短期内通用机器人难以采集足够数量的真机数据用于大模型训练;同时,常规的VLA架构也难以利用大规模人类以及跨本体操作视频数据,目前业界主要采用仿真数据和互联网的图文数据以训练机器人。
机器人结构设计仍需优化,零部件可靠性、电池续航等问题亟待解决。2025年4月,2025北京亦庄人机共跑半程马拉松在北京南海子公园开跑。半马对于机器人综合性能提出了挑战,是对其关节结构设计、热管理、电池续航、控制算法、通信干扰、软硬件耦合等方面的综合性考验。比赛途中多数选手出现运动失衡、摔倒等现象,稳定性较差;同时,多数机器人暴露出散热问题,需不断喷洒冷却液进行降温。此外,人形机器人目前续航能力有限,大多数人形机器人续航能力集中在2-5小时,难以满足家庭服务、工业协作等场景的持续作业需求,仍有待进一步提升。
我们以散热和续航为例进行分析,机器人的高功率电机、密集的电子元件在持续工作时会产生大量热量,尤其是在高速持续运动或重载工况下,热量积累速度很快。而由于人形机器人设计为仿人结构,其内部空间紧凑,热量难以快速散发。此类问题仍待解决。
供应链成本较高,硬件价格仍需进一步下降。由于目前人形机器人量产产业规模有限,相关的零部件需求暂未完全释放,而部分零部件如精密传感器、行星滚柱丝杠等此前由于应用场景有限价格较为昂贵,未来产业规模进一步扩大也有赖于供应链环节的进一步降本。
4.2.4 目前人形机器人的主要技术参数水平
人形机器人产品快速迭代,产品性能持续提升,产品各项性能参数均存在差异。
①运动控制:目前人形机器人已具备一定复杂运动能力,如宇树科技G1机器人可以实现流畅的侧空翻动作,并且在拳击比赛中被打击后迅速恢复平衡,展现出了较好的运动性能。但是从整个行业的角度来看,运动控制仍有发展空间,机器人运动速度、姿态稳定度上仍需进步。以Optimus为例,Gen2单手自由度达11个,预计Gen3单手自由度有望提升至22个,灵巧手能够执行精细操作,如搬运鸡蛋、二指拿鸡蛋等精细化操作。
②环境感知:通过激光雷达、视觉传感器和惯性测量单元(IMU)的多模态融合,机器人能够实时识别地形等外部环境变化,并动态调整其步幅与重心,实现运动稳定性。以人形机器人半马的松延动力团队为例,其N2机器人依赖多模态传感器融合,通过仿生足底传感器、激光雷达和视觉SLAM实现复杂地形导航,并且其动态抗干扰算法也可以应对外部突发干扰。
③应用场景:目前人形机器人主要应用于科研教育、智慧引导、数据采集等场景,焊接、分拣、搬运等工业场景以及康养护理、家庭服务等消费端场景是正在积极拓展的重要方向。行业陆续释放批量订单,如智元机器人、宇树科技中标中移(杭州)信息技术有限公司2025年至2027年人形双足机器人代工服务采购项目,总标包1.24亿,分别为:智元7800万(含税),宇树4605万(含税),批量订单预示人形机器人在终端商业场景的探索逐步进入落地阶段。
以特斯拉的人形机器人为例,根据特斯拉2021年的AI日,Tesla Bot外形设计接近人类平均身材,全身采用轻量化材料,并且在面部有一个重要信息显示屏。它的四肢使用40个机电执行器进行操作,其中手臂12个、颈部2个、躯干部2个、手部12个、腿部12个。此外,它具有人类级仿生手,脚部为2轴平衡设计,有力反馈感应,可以实现平衡和敏捷的动作。
2023年12月,特斯拉发布第二代通用人形机器人Optimus Gen2,其机械结构进一步优化,整机重量减轻10公斤,并能够实现更灵活的肢体运动。在运动性能方面,其行走速度提升30%,新增深蹲等复杂动作能力;平衡系统优化,具备动态环境适应能。Optimus Gen-2的单手自由度仍然是11个,但是响应速度和执行速度更快,其中手指部分使用了全手指触觉传感器,帮助人形机器人实现精细化操作。根据特斯拉展示视频,Optimus Gen-2手部活动更加连贯拟人,能够精准抓握细小易碎物品。
目前特斯拉尚未正式发布其Optimus Gen3,但从此前会议信息得知预计第三代人形机器人灵巧手将得到显著升级。Optimus Gen-3灵巧手预计有22个自由度。
国产人形机器人方面,我们以星动纪元的星动STAR1为例进行介绍。公司人形机器人产品经过多次迭代升级,于2024年8月推出的首款产品级高性能人形机器人星动STAR1。
星动STAR1全身共有55个自由度,具有业界先进的动态性能。其最高关节扭矩达400Nm,最高转速达25rad/s,室外真实场景奔跑速度达3.6m/s,配合腰部的3个自由度可以轻松完成自然步态下的稳定行走、奔跑、跳跃等复杂运动。
星动STAR1上肢包括公司自主研发的具有7个自由度的高精度仿生机械臂,以及12个全主动、全自驱的自由度的高性能灵巧手星动XHAND1,在精细操作任务领域具有业界先进的执行机构,能适应多种场景应用需求。
星动STAR1集成了Intel高性能处理器和Nvidia Orin的计算资源,为人形机器人在强化学习、模仿学习和端到端大模型研究中提供算力支持。此外,该机器人还配备了指尖阵列式触觉传感器、深度视觉相机、麦克风阵列和面部交互屏幕等多种外设。
4.2.5 人形机器人的执行、感知系统介绍
人形机器人的执行系统主要指其躯干的关节模组和灵巧手,前者主要包括旋转关节和线性关节。关于驱动和传动方案设计,旋转关节常采用电机+减速器,线性关节多采用电机+丝杠。目前特斯拉、小鹏等厂商采用旋转+线性关节方案,而Figure、智元、宇树等厂商的部分机器人则采用全旋转方案。
我们以特斯拉产品为例进行分析。根据特斯拉2022年的AI日展示的细节,Optimus拥有40个机电执行器,其中躯干+腿部+手臂共有28个执行器,包括14个旋转执行器、14个线性执行器;手部有12个执行器。Optimus躯干+腿部+手臂的28个执行器又可以分为6类,包括扭矩为20、110、180Nm的旋转执行器和牵引力为500、3900、8000N的线性执行器。
Optimus躯干+腿部+手臂的旋转执行器一共有14个,按照扭矩不同分为20、110、180Nm三类。从结构来看,旋转执行器包括无框力矩电机、谐波减速器、机械离合器、无接触力矩传感器、输入&输出位置传感器、交叉滚子轴承、角接触球轴承等。从工作原理来看,旋转执行环节主要包括以下环节:①电机是动力输入源,其中永磁体(转子)发生旋转运动;②电机产生的动力经过谐波减速机转换,实现了降低转速、增大扭矩的目的,可满足驱动负载的要求;③谐波减速器输出端通过交叉滚子轴承连接至输出轴,以实现部分关节的旋转运动。在此过程中,无接触力矩传感器测量输出扭矩,输入、输出位置传感器用于测量位置和速度,并实现及时的反馈,便于进行精确的控制;机械离合器主要实现传动通断状态的切换。此外,也有诸多厂商的旋转执行器采用行星减速器方案,主要用于机器人下肢。
Optimus躯干+腿部+手臂的线性关节一共有14个。从结构来看,包括无框力矩电机、行星滚柱丝杠、力传感器、四点接触轴承、球轴承、位置传感器。从工作原理来看,以膝盖处为例,行星滚柱丝杠处于人形机器人的“大腿”位置,当腿需要伸直时,丝杠收缩,拉动A点,通过其他连杆,小腿即可伸直,具体流程如下:①无框力矩电机驱动螺母旋转;②螺母此时因轴向固定,不做直线运动,推动丝杠进行直线运动(此为反向行星滚柱丝杠的表现);③丝杠推或者拉A点,即可带动腿部运动。力传感器和位置传感器负责采集、反馈、矫正,使控制更精准。
目前市场上灵巧手的驱动方案、传动方案等存在多种选择,此处我们以特斯拉灵巧手为例进行介绍。
Optimus Gen-3灵巧手预计有22个自由度。2024年10月11日,特斯拉在We Robot会议结束后展示第三代灵巧手模型。根据展示视频,该灵巧手共有22个自由度,其中灵巧手的食指、中指、无名指分别具有4个自由度,拇指以及小指分别具有5个自由度。具体来看,每根手指有三个关节,分别是远端关节(DIP),中间关节(PIP),近端关节(MCP),其中DIP&PIP具有一个自由度,可以弯曲和伸展,MCP具有两个自由度,可以进行弯曲伸展,以及内收和外展。
Optimus Gen-3灵巧手的灵活度较前一代提升明显。与第二代灵巧手相比,Optimus Gen-3灵巧手在每个手指环节增加了远端关节和中间关节自由度,近端关节增加了外展和内收自由度。此外,在小指处,新一代灵巧手增加了一个转轴,使得该灵巧手具备2个对掌关节(Opposition)。目前,行业中大部分灵巧手都是使用一个对掌关节(即拇指的对掌关节),双对掌关节的设计使得Optimus新一代灵巧手小指拥有更高的灵活度,有利于自适应抓取和进一步手内操作潜力的发掘。
Optimus Gen-3灵巧手运动系统预计主要包括线性执行器模块和腱绳模块。根据特斯拉展示视频和腱驱动相关学术研究,我们判断,Optimus Gen-3灵巧手中驱动系统包括线性执行器模块+腱绳模块,其中线性执行器模块预计为“电机系统+丝杠”或者“电机系统+减速器+丝杠”的方案,腱绳模块预计包括腱绳导管、腱绳、腱张力传感器、腱端连接器等部件。每根手指的DIP和PIP关节由同一根腱绳控制,关节的回弹依靠手指背后的回弹腱绳。
人形机器人包含人机交互、环境感知、运动控制三大核心能力,使得它们像人一样具有感知、学习和与环境动态交互的能力。人形机器人通过配备多种传感器来实现对外部环境的感知和自身状态的监测,从而完成复杂的交互与操作任务。
常见的人形机器人传感器类型包括视觉、触觉、听觉等感知交互型传感器,以及六维力、编码器等运动控制传感器。
4.2.6 人形机器人核心零部件介绍
4.2.6.1 电机:为人形机器人提供驱动力
以下我们对人形机器人执行系统的主要零部件进行逐一分析。
电机是指依据电磁感应定律实现电能转换或传递的一种电磁装置,通常由定子、转子、壳体、结构件构成。电机可分为电动机与发电机两个大类。本报告中所提到电机指电动机,以电磁场作为媒介将电能转化为机械能,实现旋转或直线运动,作为用电器或各种机械的动力源。
电机种类多样,可按照供电电源、电机运动方式、电机用途等不同方式进行分类。
根据功能与用途差异可将电机分为驱动电机与控制电机两大类。驱动电机主要实现机电能量转换,重点在于力能指标(效率和功率因数等)。控制电机是指在自动控制系统中作状态监测、信号处理或伺服驱动等用途的各种电机、电机组件及其系统,主要实现控制信号的变换与传递,实现对运动状态(如位置、速度、扭矩等)较为精确的控制,通常在自动控制系统中作执行元件或信号元件。伺服电机、步进电机便是典型的控制电机,前者控制精度相对更高。
人形机器人电机需要满足高效率、高动态和高功率密度的要求。①高效率:机器人通常由电池供电,需要能经受得起苛刻的运行条件,可进行十分频繁的正反向和加减速运行,并能在短时间内承受过载,因此低能耗和低摩擦损失很重要。②高动态:整个驱动器的惯性应尽可能低,电动机从获得指令信号到完成指令所要求的工作状态的时间应短。③高功率密度:机器人应用需要高速、高扭矩电机,电机还需要小巧,紧凑,轻巧。根据这些应用要求,我们判断人形机器人电机应以控制电机为主,尤其是对于运动控制更加精确的伺服电机有望得到更多应用。
Optimus Gen2主要应用两类特殊的伺服电机,即无框力矩电机和空心杯电机。参考Optimus Gen2方案,其全身共有40个执行器,每个执行器都会搭配一个电机:①Optimus躯干+腿部+手臂的旋转执行器和线性执行器均使用无框力矩电机;这些部分应用的电机对扭矩、牵引力要求较高。②Optimus手部执行器使用的是空心杯电机。
无框力矩电机,全称为永磁无刷无框力矩电机,是一种特殊的伺服电机。和传统伺服电机相比,无框力矩电机没有轴、轴承、外壳或端盖。根据Kollmorgen官网,无框电机只有转子和定子两个部件,其中转子通常是内部部件,定子是外部部件。
无框力矩电机具有高紧凑度、高效率&转速、低噪音、高稳定性&低维护等特点:①高紧凑度:无框力矩电机没有轴、轴承、外壳或端盖,体积较小、整体结构紧凑。②高效率和转速:无框力矩电机可以直接嵌入机械的内部结构中能够降低磨损、提高效率和转速。③低噪音:由于无框力矩电机嵌入在机械的内部结构中,噪音相比一般有外壳的电机更小。④高稳定性&低维护性:由于无框力矩电机减少了大量零件,结构简单、更易稳定工作。
无框力矩电机由独立的转子和定子部件组成,可以和安全制动器、编码器构成一个无框力矩电机模组。无框力矩电动机是一种为了某些特殊用途而设计的永磁式直流伺服电机,以Kollmorgen TBM2G系列无框电机为例,电动机的转子内圈是不锈钢做成的环,环外嵌入环形磁铁作为电动机的主磁场;电动机的定子是由导磁材料的冲片叠压成电枢,并压在非导磁的支架上。在转子的槽中嵌入线圈,特殊形状的槽楔一端构成换向器片,另一端与线圈的尾端焊接在一起,并与转子绝缘,然后以聚合树脂将整个转子灌封成为一个整体。无框力矩电机模组包括定转子、安全制动器、编码器等部件。
无框力矩电动机的基本原理类似于普通伺服电动机,但在结构、性能和应用场景等方面具有较大差异。①电机结构:普通伺服电动机为了减小电动机的转动惯量,大都做成细长圆柱形。而无框力矩电动机为了能在相同体积和电枢电压下产生比较大的转矩及较低的转速,一般做成扁平状,电枢长度与直径比很小,为0.2左右,某些特殊场合可达0.05;考虑结构的合理性,其定转子一般做成永磁多极的;为了减少转矩和转速的脉动,一般选取较多的电枢槽数、换向片数和串联导体数。②性能:普通伺服电机转子转速受输入信号控制,并能快速反应,在自动控制系统中,用作执行元件,且具有机电时间常数小、线性度高、始动电压等特性;无框力矩电机低速甚至堵转(即转子无法转动)时仍能持续运转,不会造成电动机的损坏。③应用场景:伺服电机主要应用于需要高精度控制的场合,如数控机床、印刷机、自动化生产线等;无框力矩电机主要应用于需要输出大扭矩的场合,如风力发电、电动汽车、机器人等。
空心杯电机是一种特殊结构的直流电机。空心杯电机,又称“直流无刷无齿槽电机”,是一种特殊结构的直流电机。和传统直流有刷电机相比,空心杯电机省去铁芯作为支撑结构,靠空心杯状的线圈绕组与连接板、主轴等共同组成转子。空心杯电机具有效率高、灵敏度高、运行稳定、控制性强等特点。
与传统直流有刷电机相比,空心杯电机具有以下优势:①节能、效率高:空心杯电机的结构没有齿槽结构和铁芯,减少电机运行时磁阻力矩,从而降低输出转矩波动,消除铁芯涡流效应引起损耗,减少电机运行时的能量损耗。因此,空心杯电机效率可达到85%,高于传统直流电机的75%左右;②重量小、功率体积比大:空心杯电机没有铁芯,在同等条件下空心杯电机重量减轻1/3-1/2,体积减小1/3-1/2,因此功率体积比较大;③灵敏度高:空心杯电机机械时间常数较小,仅为28ms,甚至小于10ms,远低于一般铁芯的100ms,因此空心杯电机响应速度快,灵敏性高;④运行稳定:空心杯电机转速波动率一般可控制在2%以内,转动稳定,噪声较小。
4.2.6.2 编码器:实现电机位置&速度反馈,助力精准运动控制
编码器主要用来测量磁极位置和电机转角及转速。编码器是一种可以将角位移或直线位移转换成电信号,并将电信号进行解析、编制和转换为可用以通讯、传输和存储的信号形式的设备。编码器通常安装在闭环控制的电机系统上用以测量磁极位置和电机转角及转速。
编码器分辨率对电机系统的控制精度具有重要影响。编码器在电机系统中成本占比并不高,以伺服系统为例,编码器占其成本中占比约为11%。但是,编码器对电机系统性能起决定性作用,对电机的定位精度、速度稳定性、功率损耗和安全性都有重要影响。
4.2.6.3 减速器:实现动力传动的重要部件
减速机是原动机和工作机之间的独立的闭式传动装置,起到匹配转速和传递扭矩的作用。减速机是一种相对精密的传动装置,其主要针对的减速对象是电机,在原动件与工作机之间起到匹配转速和传递扭矩的作用。减速机的工作原理是将原动机提供到输入轴的动力,通过减速机的输入轴上齿数少的齿轮啮合输出轴上的大齿轮传动到输出轴上,从而驱动工作设备运转,以达到降低转速、增大扭矩的作用。
减速机通常由齿轮、箱体、轴承、法兰、输出轴等主要部件组成。齿轮是轮缘上有齿、能连续啮合传递运动和动力的机械元件;轴承是减速机中支撑相对旋转轴的部件;箱体指减速机的基座;法兰是减速机中的重要连接部件;输出轴是减速机向工作机输出动力的轴。
减速机是工业动力传动不可缺少的重要基础部件之一。绝大多数工作机负载大、转速低,不适宜用原动机直接驱动,需通过减速机来降低转速、增加扭矩,因此绝大多数的工作机均需要配用减速机。作为工业动力传动不可缺少的重要基础部件之一,减速机广泛应用于环保、建筑、电力、化工、食品、物流、塑料、橡胶、矿山、冶金、石油、水泥、船舶、水利等行业。
可能应用于人形机器人领域的减速器主要包括谐波减速器、精密行星减速器、RV减速器等。
谐波减速器具有体积小、传动比高、精密度高等特点。谐波减速器通过柔轮的弹性变形传递运动,主要由柔轮、刚轮、波发生器三个核心零部件组成。与RV及其他精密减速器相比,谐波减速器使用的材料、体积及重量大幅度下降。谐波减速器可以在密闭空间内传递运动,运动精度高,质量和体积小,转动惯量小,多级谐波齿轮具有较大传动比;但是工作时柔轮每转一次就会产生椭圆变形两次,容易引起材料疲劳,并在工作时产生一定的传动误差。
精密行星减速器结构较为简单,传动效率较高。精密行星减速器主要由行星轮、太阳轮和内齿圈组成,传动比通常都在10以内,且减速级数一般不会超过3级。精密行星减速器运行过程中一个太阳轮有3个行星轮绕转,因此体积小、质量较轻,相较于其他减速器启动更加平稳,且刚性、精度和扭矩高。
RV减速器在工业机器人领域应用广泛。RV减速器主要包括两级传动装置,分别为渐开线行星齿轮传动和摆线针轮行星传动。渐开线行星齿轮传动机构中包括行星直齿轮、偏心轴和中心轮,摆线针轮行星传动机构中包括摆线轮、偏心轴、针齿和行星架。相比于传统的摆线针轮行星传动,RV减速器的传动比范围更大、传动效率更高;RV减速器低速级摆线轮结构为180°对称分布,使得摆线轮的结构受力均匀、啮合次数增加,提高了减速机的传动平稳性和承载能力;RV减速器采用两端支撑输出结构,相比普通摆线减速机,刚性和耐过载冲击性能得到大幅度提升,传动精度与传动误差得到显著优化。
4.2.6.4 轴承:支撑旋转体,助力精准传动
轴承是机械设备中的一种重要零部件。轴承作为现代机械设备中应用广泛的一种高精密机械基础运动部件,其主要功能是支承旋转轴或其它运动体,保证旋转精度,降低设备在传动过程中的载荷摩擦系数。轴承的精度、性能和可靠性对机械设备的性能起着关键作用,轴承技术水平直接影响着工业发展的水平。
根据轴承工作时运转的轴与轴承座之间的摩擦性质,轴承可分为滚动轴承和滑动轴承两类。滚动轴承的摩擦系数小,摩擦阻力及启动摩擦力矩小,功率消耗少,并且标准化、产业化程度高,应用最广泛,通常所说的轴承,一般也指滚动轴承。
滚动轴承基本由外圈、内圈、滚动体和保持架等构成。轴承套圈包括内圈、外圈,每个套圈上都有滚道,内圈的滚道在外表面,外圈的滚道在内表面。滚动体在滚道上滚动,两者的接触面支撑施加在轴承上的负荷。滚动体可分为球和滚子两大类,滚子按形状又分为圆柱滚子、滚针、圆锥滚子和球面滚子。滚动体在轴承套圈之间滚动,承担载重的任务。轴承按照滚动体的列数可以分为单列、双列和多列。保持架并不直接承受载荷,其作用是按照一定的间隔将滚动体保持在正确的位置上,同时防止滚动体脱落。
精密滚动轴承为机器人执行系统关键零部件,对机器人减速器的承载能力、回转精度、运转平稳性、重复定位精度等性能起到重要作用。精密轴承具有轻量化、高精度、良好的旋转精度和可靠性等特点,满足机器人精密减速器苛刻的性能要求。机器人轴承普遍安装在有限的空间,必须体积小、重量轻,也就是轻量化。但同时,机器人的高载荷、高回转精度、高运转平稳性、高定位速度、高重复定位精度、长寿命、高可靠性的性能,要求配套的机器人轴承必须具备高承载能力、高精度、高刚度、低摩擦力矩、长寿命、高可靠性的性能。
特斯拉人形机器人执行系统中应用多个轴承。根据2022年特斯拉AI日发布会资料,特斯拉人形机器人旋转执行器中使用了角接触球轴承、交叉滚子轴承,线性执行器使用了球轴承和四点接触轴承。
4.2.6.5 丝杠:线性执行器重要部件,模拟人体肌肉功能
丝杠是一种将旋转运动转化为直线运动的传动部件。丝杠是一种将电机端旋转运动转化为直线运动的机械部件,广泛应用于具有直线运动功能的机器设备中。电机通过联轴器带动丝杠轴转动,丝杠轴上的螺母在螺旋形螺纹的驱动下实现直线往复运动,从而将电机的旋转力矩转化为设备运动所需要的直线方向的驱动力。与各种驱动方式相比,“滚珠/柱丝杠+旋转电机”的组合在定位精度、推力、速度等方面具备稳定性能,应用广泛。
工业母机多采用滚珠丝杠,承载冲击更强的滚柱丝杠在人形机器人领域有望得到大规模应用。滚珠丝杠被广泛用作精密定位机构的部件,主要用于机床、机器人、工厂自动化设备、半导体设备、工业机械、医疗设备等。人形机器人使用场景要求高承载、耐冲击等性能,行星滚柱丝杠有更大的接触面积、更大的直线速度、更小的振动和噪音,适合人形机器人的使用场景。
特斯拉人形机器人共有14个线性执行器。根据2022年特斯拉AI日,Tesla Bot拥有40个机电执行器——手臂8个、躯干8个、手部12个、腿部12个;其中采用线性执行器的有14个,分别为腕部、踝部的俯仰(pitch)、偏航(yaw)角,髋部、肘部、膝部的俯仰(pitch)角,主要为受力要求较大的部位。
人形机器人线性执行器主要采用“电机+行星滚柱丝杠+轴承+传感器”实现,反向行星滚柱丝杠是核心部件之一。
4.2.7 人形机器人产业链价值量分析
根据《2024人形机器人产业链白皮书》,在当前人形机器人的成本结构中,三大执行器(线性执行器、旋转执行器、灵巧手)占人形机器人主要零部件价值量的73%,主要由丝杠、无框力矩电机、减速器、力传感器、空心杯电机及轴承构成。丝杠为其中的核心零部件之一,约占人形机器人价值量的19%;其次为无框力矩电机16%、减速器13%、传感器11%、空心杯电机8%。
当前人形机器人传感器单体价值量为2.3万元左右,且在逐步增加。我们以特斯拉人形机器人为蓝本,结合当前产业中的主流产品及主流方案,测算当前人形机器人传感器单体价值量为2.3万元左右,且触觉、视觉等领域要求在不断提高,价值量呈现增加态势。
视觉、六维力传感器、触觉为兼具高价值和高壁垒的方向。从价值量来看,视觉传感器占到31%,六维力矩传感器占比26%,触觉传感器占到13%。
4.2.8 人形机器人产业链发展趋势展望
供应链降本是行业发展的必然趋势:按照特斯拉远期对人形机器人的定价目标,以及近期国产人形机器人的定价,我们认为未来人形机器人整机成本可能在8万人民币左右甚至更低。这意味着,随着量产阶段的不断推进,供应链各类参与者给的报价都将持续下降,未来这个行业的供应链非常像汽车行业的供应链,参与者能否低价批量供货将构成核心竞争力。
降本节奏展望:我们将人形机器人量产分为三个阶段,其中阶段一是量产前阶段,产业链还不完善,各零部件报价主要参考市场价格;阶段二是开始量化阶段,产业链还没有完全成熟,但是各零部件生产工艺改进优化,报价较过往大幅降低;阶段三是大批量化生产阶段,产业链已经成熟,各零部件按照规模生产行业合理利润率进行报价。我们预计零部件未来单价普遍在千元之内甚至更低,但是市场空间得到几何级放大。
从关节方案选型来看,线性执行器VS旋转执行器:负载、成本、精度等为重要考量因素。两类执行器各具优劣势,在实际选型中,需根据机器人产品定位、综合成本、工作场景等因素,选择具体的执行器。我们认为,两种执行器的优劣势仍在变化当中,如丝杠的降本速度有望加快,或新型材料出现会增强减速器的扭矩密度,以及新工艺路线的出现(如磁驱等),这些都会影响本体厂商的选择。但整体来看我们认为,线性关节具有精度高、承载力大、传动效率高等优势,伴随着国内丝杠厂商快速降本,未来在人形机器人关节模组占比将相对提升。
灵巧手、传感器应用场景不拘泥于人形,有望加速放量。
一方面,灵巧手是人形机器人与外界交互的重要执行器,随着特斯拉发布人形机器人量产展望,人形机器人灵巧手有望放量,微型丝杠、腱绳模块和传感器需求有望大幅增加。另一方面,灵巧手可以不依附人形机器人独立存在,能够有效替代电动夹爪等末端执行器,远期市场容量有望进一步扩大,越来越多的零部件供应商将切入灵巧手领域。
传感器是具身智能包括人形机器人与物理世界交互的关键,是使得具身智能体更智能化、通用化的重要载体。从价值量拆分来看,视觉传感器占到30%,六维力矩传感器占比25%,触觉传感器占到17%,为价格及壁垒俱高的方向。
(1)视觉传感器具备技术参数要求高、价值量大、竞争格局相对稳定等特点,为当前传感器中确定性较高的方向。
(2)六维力矩传感器从航天、医疗等行业发展而来,当前正经历快速降本,我们认为在关注技术积淀的同时,应重视各大企业降本途径,包括贴片、标定设备的自动化程度,以及规模化生产能力。
(3)触觉传感器使用面积有望逐步增大,产品精度要求亦将不断提升,是具身智能包括人形机器人智能化的重要媒介。当前压阻式、电容式、电磁式等技术路径呈现百花齐放的特征,技术路线尚未收敛,成本、精度、工艺为后续重要观察方向。
4.3 AI+手机、PC、眼镜及玩具发展趋势及展望
云边协同的混合式AI架构对AI的规模化扩展起到重要作用。根据高通《混合AI是AI的未来》白皮书,随着生成式AI正以前所未有的速度发展以及计算需求的日益增长,AI处理必须分布在云端和终端进行,才能实现AI的规模化扩展并发挥其最大潜能。与仅在云端进行处理不同,混合AI架构可以根据模型和查询需求的复杂度等因素,在云端和边缘终端之间分配并协调AI工作负载。云端和边缘终端如智能手机、汽车、个人电脑和物联网终端协同工作,能够实现更强大、更高效且高度优化的AI。
终端侧AI具有成本、能耗、可靠性、隐私、安全和个性化优势。
成本优势:AI推理的规模远高于AI训练。模型的推理成本将随着日活用户数量及其使用频率的增加而增加。在云端进行推理的成本极高,这将导致规模化扩展难以持续。将一些运算负载从云端转移到边缘终端,可以减轻云基础设施的压力并减少开支。
能耗优势:边缘终端能够以很低的能耗运行生成式AI模型,尤其是将处理和数据传输相结合时。
可靠性、性能和时延:当生成式AI查询对于云的需求达到高峰期时,会产生大量排队等待和高时延,甚至可能出现拒绝服务的情况。向边缘终端转移计算负载可防止这一现象发生。
隐私、安全和个性化:由于数据处理完全在本地进行,终端侧AI有助于保护个人信息,以及企业和工作场所中的机密信息。以本地和云端分别运行AI大模型制作行程安排为例,本地AI大模型通过长期学习用户行为,并利用本地存储的信息,可以给出更贴合用户生活习惯、更准确的建议。相较之下,如果云端模型需要访问用户本地存储的文件、浏览记录等信息再给出个性化的建议,用户通常较难接受。
边缘侧已具备运行AI的实践基础,未来将支持多样化的生成式AI模型。在生成式AI出现之前,AI处理已在终端侧获得应用,越来越多的AI推理工作负载在手机、PC等边缘终端上运行。自2017年华为麒麟 970 首度在手机 SoC中引入了 NPU(用于拍摄和图像识别)之后,高通与联发科也先后在2018年的骁龙855和2019年的天玑1000中集成了NPU/APU模块;目前NPU已逐渐成为手机SoC中常备集成的模块,且用途从最初的协同ISP进行图像处理发展为目前端侧模型的主要支撑者,重要性与日俱增。在2024年发布的骁龙8e和天玑9400上,分别集成了“Hexagon V79+Sensing Hub+DSP”和MediaTek NPU 890用于AI处理,NPU模块占SoC投影面积比例显著提升。除此之外,OPPO还曾在2021年12月举办的OPPO INNO DAY上发布了首款外挂式NPU MariSilicon X(采用TSMC 6nm制程),尽管只是用于图像处理,但仍让我们看到了未来NPU在端侧独立部署的另一种可能。
终端设备有望在AI的催化下迎来新一轮创新周期。生成式AI正在驱动新一轮内容生成、搜索和生产力相关用例的发展,覆盖包括智能手机、PC、汽车、XR以及物联网等终端品类,提供全新的增强用户体验。以PC为例,AI大模型已能够有效地处理文档撰写和演示文稿制作等任务,完美契合PC作为生产力工具的定位。此外,在以终端为中心的混合AI架构中,多数任务能够在PC本地运行,既保护隐私,又能及时响应。新兴的发展趋势有望带动新一轮的产品创新周期,全球科技巨头正加速投入。
4.3.1 AI手机:软硬件生态落地,驱动换机周期
AI手机的萌芽期——激增的音频/图像数据处理需求推动了AI手机的早期探索。智能手机构建本地AI能力历时已久,前期主要用于加速特定任务。在移动互联网和手机智能化发展的促进下,用户对于音频、图像数据的处理需求快速攀升,而传统的CPU、GPU分别存在计算速度慢、能耗高等问题。从2015年高通的骁龙820首次集成高通AI引擎以加速音频处理,到2017年华为、苹果分别在麒麟970和A11中加入NPU模块以加速图像处理,智能手机本地的AI算力在不断进步。总体而言,这一时期的AI手机主要利用NPU或其他AI加速硬件对特定任务如图像处理、语音识别进行加速。这些应用完成了AI手机的早期探索,一定程度上改善了用户的体验,但并没有引入全新的使用场景。
AI手机新阶段——大模型驱动智能化升级,将成为新一代AI手机的核心特点。AI大模型激发了将更先进的AI能力集成到智能手机中的愿景。AI大模型,如GPT-4表现出在多种任务上的卓越性能,包括自然语言理解、对话生成和复杂的推理任务。这些模型的复杂性和所需的计算资源远远超出了传统手机应用的范畴,但它们的成功激发了将更先进的AI能力集成到移动设备中的愿景。将AI大模型运用到手机上可能会大大提升手机的智能化程度,使得设备能够执行更复杂的任务,提供更个性化的体验,并更有效地处理大量数据。例如,手机可以使用AI模型来优化语音、图像处理等传统加速任务,并提供高度个性化的推荐,甚至进行实时的语言翻译和复杂的对话交互。
新一代AI手机具备可端侧运行AI大模型,且AI算力较高的特征。能否通过本地运行AI大模型提升智能化体验将成为新一代AI手机发展的关键。根据OPPO《AI手机白皮书》的定义,新一代AI手机需要支持包括Stable Diffusion和各种大语言模型在内的Gen AI模型在端侧运行,而为了更高效地运行大模型,NPU算力应大于30TOPS。
AI手机趋势如下:
1、端云混合:AI大模型在云端与终端混合运行将是一段时间内的主流解决方案。AI大模型可以按照云端运行、终端运行、混合运行三种模式在手机上落地:(1)基于云端运行:云端运行存在时延、隐私的问题,且企业由于承担推理成本需要考虑AI应用推广与商业化的平衡。(2)基于终端运行:手机由于算力、存储等硬件条件的限制,能本地运行的模型参数量有限,执行的任务复杂度较低。(3)混合运行:综合了前者的优缺点,但或许是当下生成式AI规模化扩展的最优解,也是各大厂商AI手机普遍采用的思路。
通过三星S24可以窥见AI手机端云混合的初级形态。以三星S24为例,简易AI应用如通话语音翻译离线运行,复杂应用如文生图、圈选即搜则由Google等云端大模型提供支持。
苹果Apple Intelligence端云三大模型混合,实现跨应用执行操作能力。2024年苹果WWDC上展示了Apple Intelligence,其是iPhone、iPad和Mac等苹果终端的个人智能系统AI平台,支持端侧、云端大模型同步运行,能够实现苹果自身的跨应用操作、连续对话和上下文理解等功能,其中跨应用整合是最大的功能亮点,未来苹果将开放SDK全方面支持三方应用调用系统AI。Apple Intelligence的层级具体可描述为“端侧30亿参数大模型+私密云端大模型+第三方大模型调用”。前两者为苹果自研,其中本地模型具备约30亿参数,测试得分高于诸多70亿参数的开源模型(Mistral-7B 或 Gemma-7B);云上模型通过私有云计算部署在Apple芯片服务器上,运行的更大云端语言模型。目前公布的第三方大模型调用技术支持为 GPT-4o。苹果自研Apple Intelligence在性能上已经足以满足到用户的基本需求,因此Apple Intelligence在逻辑上会优先使用端侧及苹果私密云端大模型给予用户支持,对于第三方大模型调用的优先级则后置。
谷歌Google以云侧为主、端侧为辅,充分利用云侧高参数强算力优势,端侧仅用于以文字处理为主的低负载任务。与Apple类似,Google同样为自研SoC(Tensor)+自研大模型(Gemini)的组合,但Google Pixel 9系列搭载SoC Tensor G4的TPU沿用了前代G3的Edge TPU “Rio” ,主频相同且单精度、半精度与量化推理性能均并未见明显升级,端侧推理能力提升有限。但整体来看,Pixel 9系列首发时较前代Pixel 8系列,仍新增了通话笔记、图像描述、天气摘要等一系列低负载端侧功能和Gemini Live(智能对话)、Pixel Studio(AI图像创作)、截图识别智能问答等云侧功能。Google选择将对话/截图问答等功能放在云侧,一方面提高了对话问答的准确率,另一方面充分利用了Gemini大参数模型的优势;从趋势上看,Google终端大模型的调用逻辑是云侧为主,端侧为辅。
2、本地化AI:大模型轻量化与硬件性能突破将支撑本地运行更强大AI大模型。手机端运行AI大模型需要通过量化、压缩、条件计算、神经网络架构搜索和编译,在不牺牲太多精度的前提下对模型进行缩减。高通已经将FP32模型量化压缩到INT4模型,实现64倍内存和计算能效提升。高通的实验数据表明,在借助高通的量化感知训练后,不少AIGC模型可以量化至INT4模型,与INT8相比,性能提升约90%,能效提升大约60%。
核心硬件配置升级支撑更高参数量模型的本地化部署。高通、联发科最新一代SoC在基础性能提升的同时,对生成式AI处理进行了优化,可在手机上直接运行百亿参数模型。各大手机厂商也开始在手机中配置12/16G甚至更高的DRAM容量,为更高参数的大模型运行提供基础。
SoC大幅升级NPU趋势下,国产手机厂商百花齐放,端侧任务处理能力持续提升。高通于2024年10月发布的Snapdragon 8 Elite大幅升级了NPU,将Hexagon NPU的标量加速器核心增加到8个、向量加速器核心增加到6个,较前代推理速度和每瓦性能均提高45%;同时支持了包括LMM、LLM、LVM和ASR等在内的更多模型运作。与之对应,联发科新一代旗舰平台天玑9400集成了第八代NPU 890,在Stable Diffusion性能提升至2倍、大语言模型提示词处理性能提升80%的基础上,端侧多模态AI运算性能可达50 Tokens/秒、功耗降低35%。旗舰及次旗舰SoC平台集体升级NPU性能,赋予了三星/小米/OPPO/Vivo/荣耀等厂商端侧大模型的更多可实现的功能。
目前国内手机厂商大模型端侧和端云混合主要发展现状如下:
(1) 小米:2024年11月,小米发布了第二代大语言模型MiLM2,从1代6B的参数规模扩展至0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B等多个量级,以适应不同场景下的需求。其中0.3B~6B主要用于端侧场景,主要用于执行具体且低成本的任务,参数规模由高至低依次搭载在旗舰→次旗舰→中低端机型上;6B和13B模型主要用于执行任务明确、且需要比6B以下参数模型提供更多的零样本zero-shot/上下文学习时场景,30B则完全运用于云端场景,模型推理能力显著增强,用于提高多任务处理/上下文学习/泛化能力。
此外,小米的大模型团队提出“TransAct 大模型结构化剪枝方法”,用8%的训练计算量将模型从6B剪枝至4B,并结合“基于权重转移的端侧量化方法”和“基于 Outliers 分离的端侧量化方法”,降低了端侧量化的精度损失。MiLM2-4B 模型总共40层,实际总参数量为3.5B,目前已经实现端侧部署落地。
(2) OPPO:OPPO自主训练的安第斯大模型(AndesGPT)采用行业主流的Transformer架构,包含AndesGPT-Tiny、AndesGPT-Turbo、AndesGPT-Titan三大类规格,涵盖十亿至千亿以上多种不同参数规模的模型规格,根据不同场景智能调度。AndesGPT核心能力聚焦在知识、记忆、工具、创作四个方向,具备对话增强、个性专属、端云协同三大技术特征。AndesGPT针对千万级指令数据进行了按数据集类型、任务类型、领域类型的设计了多种采样组合,并引入了长时记忆机制,侧重于落地在智慧助手和长文字内容创作场景。
(3) Vivo:Vivo发布的 BlueLM-7B (蓝心大模型)是由 vivo AI 全球研究院训练的参数规模 70 亿/多语言语料2.6T的预训练语言模型,支持32K大尺寸上下文,可实现包括内容创作、知识问答、代码生成、信息提取、逻辑推理在内的多项功能。面向开发者,Vivo提供了蓝心编码助手,可提供代码生成、代码补全、自动代码注释等AI编码能力。针对图片处理,Vivo基于蓝心大模型的文生图和图生图能力打造了AI绘画平台妙笔生画,可以绘制包括摄影、水墨、动漫、古诗词等中国特色风格为主的AI绘画。
3、个人慧助:AI赋能操作系统内核,个人智慧助理式操作系统成为趋势。
手机厂商布局手机操作系统,构筑融合AI的基础。谷歌安卓系统以开源特性和丰富应用生态,占据主导地位。苹果iOS系统以封闭生态圈和出色的用户体验赢得大量用户的青睐。华为鸿蒙操作系统奋起直追,主打分布式能力。其他手机厂商也纷纷打造自家操作系统,强化技术独立的同时构筑搭载系统级AI的基础。
AI赋能操作系统创新,打造个人智慧助理式操作系统。AI手机操作系统竞争再度升级,手机操作系统不再局限于界面和应用,而是向更智能、个性化的方向迈进。未来有望通过自研端侧大模型赋能操作系统“个性化成长”,加持意图识别人机交互,基于用户自己的行为和数据去学习和理解他的意图,形成个人智慧助理式个性化操作系统。AI Agent(具备交互、搜索、翻译、个性推荐、日程管理等能力)、跨应用功能统一调用、用户隐私保护、个性化和自适应等将成为AI操作系统的重要特征。AI赋能操作系统带动智能手机竞争从硬件拓展至软件体验。
AI Agent持续改变传统手机App交互方式,“一键式”内容输出有望显著提升消费者体验。目前国产厂商侧重于将AI Agent嵌入用户日常生活或工作流中,以OPPO为例,根据OPPODAILY数据,自3月接入Deepseek-R1以来,OPPO“小布助手”DAU持续提升,截至2025年6月MAU已突破1.5亿。6月30日,OPPO面向Find X8/Find N5/一加13等搭载了最新旗舰SoC的手机系列全量推送了深度执行功能,支持一键式生成pdf格式专业研究报告。随着端侧性能的进一步提升和手机厂商模型训练能力的增强,后续有望见到更多厂商落地类似功能。
4、竞争格局:“堆叠硬件”竞争局限有望被打破,大模型能力决定红利分配
AI手机发展将推动智能手机市场进入新的竞争阶段。随着华为在市场上的重新崛起,防守市场份额并投资开发全新的亮眼功能成为其他厂商聚焦重心,AI成为关键因素,有望打破原有“堆叠硬件”的竞争局限,刺激创新加速并深刻改变商业模式,大模型能力决定红利分配方式。
高度个性化体验推动创新,AI算法和硬件的优化适配成为重点。AI手机可以根据用户的习惯和偏好,自动调整手机设置,推荐相关内容,甚至预测用户需求,高度个性化的体验将推动厂商在软件和服务上进行更多创新,如图像识别、语音交互、健康监测等,为厂商提供新的竞争领域,厂商之间的竞争将不再仅仅局限于硬件规格,还包括如何优化算法和硬件配合以更好地支持AI应用。
手机厂商与大模型厂商竞合并存,市场发展红利进一步向头部集中。一方面,手机厂商与大模型厂商合作,大模型厂商借助手机厂商的渠道和用户基础推广技术并变现,手机厂商利用大模型厂商的技术提升品牌价值和产品竞争力。另一方面,手机厂商希望拥有自主AI技术保持独立性和竞争优势,与专门提供AI服务厂商形成竞争。而不同于堆叠硬件的简单粗暴模式,培育优质大模型周期长、成本较高,未来市场格局或将向头部手机厂商自研AI,头部大模型厂商赋能尾部手机厂商(不排除会如SOC出现高通、联发科一样出现独大的大模型厂商)方向演变,市场发展红利将向头部手机厂商与大模型厂商集中。
AI大模型与智能手机结合有望驱动新一轮换机周期。重大创新是手机换机潮的核心驱动力。2007年iPhone初代发布,再到2010年4G兴起,智能手机与功能手机的使用体验拉开明显差距,智能手机因此开始大范围取代功能手机,出货量进入持续多年的快速增长期。此后,智能手机在摄像头、屏幕等硬件设计上继续微创新。而近几年智能手机无论是革命性的还是微创新都陷入瓶颈,换机周期大幅拉长,根据TechInsights,2023年全球智能手机换机周期创新高(51个月),换机率创新低(23.5%)。AI技术正为智能手机市场注入新的活力。若AI手机实现使用体验的革命性创新,将复刻智能手机取代功能手机的高速增长。通过融入AI大模型,新一代AI手机有望改善用户体验、创造差异化竞争优势,成为缩短手机换机周期和加速市场复苏的关键驱动力。
2025年全球手机大盘微幅增长。全球智能手机2024年出货量约12.42亿台,同比增长6.4%。过去三个季度,全球及中国智能手机出货量稳定增长,增速高于全球,根据IDC,24Q2-Q4全球智能手机出货量同比分别增长4.0%、2.3%、1.5%,中国市场的出货量同比分别增长3.2%、3.9%、3.4%。展望2025年,各家旗舰机发布新一代AI手机,以及中国市场3C设备补贴刺激,或刺激消费者换机需求,智能手机出货量有望维持增长。IDC预计2025年全球和中国的手机出货量分别增长0.6%、1.0%。
AI手机渗透率持续提升,预计2025年达到34%。根据Canalys,预计2025年AI手机渗透率将达到34%,端侧模型的精简以及芯片算力的升级将进一步助推AI手机向中端价位段渗透。2025年芯片厂商发布的新款次旗舰SoC,如骁龙8s Gen4、天玑9400e 已经具备了流畅运行端侧大模型的能力,Deepseek的出现也在很大程度上降低了大模型对于芯片算力的开销,在这两大因素的共同作用下,2025-2026年AI手机仍预计会保持高速渗透的趋势。
从AI的跨应用执行操作能力看,苹果生态具有天然优势。虽然安卓旗舰机型早在2023年下半年就搭配了高通骁龙8Gen3和联发科的天玑9300,支持端侧70亿及以上参数的大模型,从硬件上较快完成了配置升级,但由于芯片、大模型、APP、系统的各自独立,安卓厂商在软硬件一体化上打通各环节的速度较慢。苹果基于操作系统、芯片、大模型、终端的一体化优势,并把握了用户入口和流量分发,且有能力快速将AI推广至Macbook、iPad、Airpods、Watch、智能家居等,形成统一、闭环的生态。
从硬件看,AI+iPhone将推动iPhone的换机周期。换机周期取决于:(1)存量用户换机周期拉长至近年来最长,根据TechInsights,2023年全球智能手机换机周期创新高(51个月),换机率创新低(23.5%);(2)iPhone保有量创下历史新高,根据Statistics,iPhone全球保有量从2015年的5.7亿部增长至2023年的14.6亿部,而其中满足Apple Intelligence硬件要求的iPhone15 Pro和iPhone15 Pro Max的保有量不足1亿台;(3)Apple Intelligence将打通多端生态应用的边界,AI+iPhone将刺激消费者的换机欲望。复盘iPhone历史的销售量和ASP,可以看出,随着iPhone本身功能的迭代升级, iPhone ASP在逐年提升。
AI提升对iPhone的硬件要求,BOM成本在持续提升。为了在本地运行AI大模型,智能手机的SoC必须提升处理能力,例如集成专门的AI处理引擎,存储容量也需相应增加。此外,还需要更大容量的电池和更先进的电源管理芯片、更高质量的摄像头传感器和光学组件、更强的散热和射频性能。AI将加快智能手机硬件规格的升级,从而带来整机成本的提升。
4.3.2 AI PC:硬件算力与系统级AI功能逐步完善,AI PC渗透率逐步提升
AI PC将是AI终端重要落地应用场景,产业龙头已明晰新一代AI PC标准。AI大模型已能够有效地处理文档撰写和演示文稿制作等任务,完美符合PC作为生产力工具的定位。此外,在以终端为中心的混合AI架构中,多数任务能够在PC本地运行,既保护隐私,又能及时响应。新兴的发展趋势有望带动新一轮的产品创新周期,自2023年下半年开始,英特尔、高通、微软及一众OEM厂商都在积极推动AI PC的发展。初期,处理器包含NPU模块的电脑即为AI PC。2024年5月,微软发布了Copilot+PC,明确了Windows系统中的新一代AI PC标准:
(1)设备必须配备NPU、CPU和GPU,NPU算力应当大于40 TOPS;
(2)设备存储需要配备16GB RAM和256GB ROM;
(3)设备需要支持微软的Copilot;
(4)设备上之别配有Copilot物理按键。
硬件端算力与内存规格快速升级,筑实端侧AI应用运行的基础。
(1)NPU从无到有,AI算力快速提升超越基准线:苹果最早在PC处理器上加入NPU模块,M4系列的NPU算力达到38 TOPS,相比前三代有明显提升。高通的X-Elite/Plus系列,NPU算力为45 TOPS,成为首批满足Copilot+PC标准的处理器,于2024年6月上市。2023年Intel的Meteor Lake系列、AMD的Phoenix系列和Hawk Point系列成为旗下首款搭载NPU的PC处理器,但上述产品的NPU算力介于10-20 TOPS之间,并不满足微软主导的AI PC标准。2024Q3,Intel推出了Lunar Lake(酷睿Ultra 200V)系列处理器,NPU算力最高达48 TOPS,整体AI算力最高达120 TOPS;AMD推出了Strix Point(Ryzen AI 300)系列处理器,NPU算力最高达50 TOPS。Windows阵营的PC处理器厂商全部完成了达成Copilot+PC标准的产品线迭代。此外,联发科正与英伟达合作开发AI PC处理器,预计将于2025年底实现量产。
(2)异构算力单元推升综合AI算力,协同运作满足多样化需求:NPU、CPU和GPU的异构算力单元已成为AI PC处理器的标配。专为执行特定AI任务设计的NPU能使用比CPU、GPU更具能耗效率的方式执行新一代AI应用。GPU因其通用性强、算力高的特点,仍是当下AI PC处理器AI算力的主要来源,多数高负载AI任务仍依赖GPU运行。以Intel Lunar Lake为例,NPU算力达到48 TOPS,GPU算力则达到67 TOPS。在此基础上,PC还可加装独立GPU提供额外算力。根据Intel的预测,2024年-2025年期间,AI PC约40%的负载都将通过GPU执行,NPU执行的比例将从25%提升至30%,CPU执行的比例则从35%下调至30%。
(3)内存规格持续提升:PC端部署本地AI模型,需要足够大的内存将整个模型保存在其中,同时CPU/GPU和内存之间的带宽也是影响端侧大模型表现的参数。微软定义的Copilot+PC要求内存容量最低为16GB,搭载Intel、AMD新款处理器的Copilot+PC已普遍将内存提升至了32GB,为AI模型的部署留下充足余量。苹果为了Apple Intelligence在Mac端的应用,也放弃了8GB内存。2024年10月更新的M4版的iMac、Mac Mini、Macbook Pro,基础内存配置全部从8GB增加到了16GB,同时苹果宣布M2、M3版的Macbook Air机型现标配16GB内存,且起售价维持不变。Intel Lunar Lake还采用了同苹果M系列一样的MoP(Memory on Package)封装方案,内存与处理器之间的距离缩短,大大减少了数据传输的延迟和功耗。
AI PC端侧应用处于起步阶段,但其迅速发展的势头和大模型的潜力开启了爆款应用诞生的可能性。目前主流的边缘AI示例主要涵盖:(1)人机交互:如AI虚拟助手的语音或文字交流;(2)文本创作:撰写演讲稿、文章等;(3)多媒体创作:涉及音频、图像、视频素材的编辑与创新;(4)跨模态生成:文生图、语音转文字等;(5)增强应用软件:例如会议视频人像背景分离,游戏体验个性化等。随着开发者队伍的壮大,边缘AI应用的数量预计将快速增长,高通指出AI在终端的应用示例已从去年的1-2个增长至数百个,预计2024年将达到上千个。在此发展势头下,鉴于边缘端AI应用除了其本质的延迟性和隐私保护优势外,也展现出了更广泛的能力,例如在生产力方面,具有大幅提升效率的潜力;在娱乐、私人助手的角度,具有深度个性化的特点。这种全面的能力为未来爆款应用的诞生提供了坚实基础。
AI PC催化换机将使上游零部件受益,核心环节具有价值量提升机会。
处理器:AI大模型全部或者部分能力在本地运行,都需要更强大的处理能力,对处理器提出了更高的性能要求。因此,不仅CPU和GPU需进行升级以应对增强的计算需求,而且NPU可能成为标配,无论是作为SoC模块的一部分还是作为外挂组件,其性能需求都需要提高。
存储:(1)DRAM:不考虑内存硬件压缩等技术的前提下,70亿参数大模型采用INT8精度推理大约需要14GB DRAM。而且为确保整体流畅性,还需冗余量兼顾操作系统和其他软件的常驻内存。因此DRAM容量具有明确的升级机会,微软的Copilot+PC已将DRAM下限定为16GB,TrendForce数据显示2023年PC的平均DRAM仅为10.6GB,随着AI PC的普及,全球PC平均DRAM容量将持续升级。(2)NAND Flash:鉴于未来操作系统与第三方软件可能分别集成大模型,同时大模型参数量将持续提升,终端设备将需要更高的NAND Flash容量用于长期存储。
声学:AI时代,语音输入是AI的关键接口,这将会带动智能语音交互技术迅速迭代,麦克风作为语音识别核心器件亦将出现规格升级,高信噪比麦克风的市场规模也在快速增长,Omdia预计,信噪比高于64 dB的MEMS麦克风在消费领域的复合年增长率将达到8.7%,到2027年销售量将接近30亿个。
散热:AI算力提升会导致功耗增加,散热对性能的稳定性和可靠性起到关键作用,属于确定性增量环节,因此AI PC的散热配置也会显著升级,例如联想Y9000X 2024 AI元启版使用了两颗90mm大直径涡轮增压扇。搭配4根高性能复合式热管,10mm 3D Mesh的主热管能够高效导热,在有限的空间内增加尽可能多的性能。
4.3.3 AI眼镜/玩具:多方玩家积极布局,市场迎来爆发元年
AI应用或爆发在即,推动硬件终端加速迭代。2011年起,4G拉开大规模商用序幕,全球智能手机年出货量近5亿台,微信、滴滴等APP相继发布;2013年起全球智能手机年出货量达到10亿台量级,移动端应用进入全面爆发阶段。同时,大型手游、抖音、快手等短视频应用,对手机的处理器性能、内存、画质等提出了更高的要求,进一步推动了智能手机硬件的迭代。
AI应用的爆发可能仍将遵循上述规律,当前GPU等关键芯片性能快速提升,CSP厂商进行了大规模的算力基建,因此当前亟需探索各类AI应用,随之可能带动硬件终端的创新迭代。手机、PC、耳机等确实可以承载AI大模型、AI Agent,但创新可能不会止于此。
智能眼镜或许是承载AI应用的重要硬件形态。智能眼镜卡位独特,可以提供语音、手势等多种交互方式,有望成为下一代普及的智能终端。现阶段智能眼镜主要通过语音对话、简单触控等方式进行交互,能够实现智能问答、导航、翻译等功能;搭载摄像头的AI眼镜能够实现拍照、摄像等功能;若带显示的AR眼镜还能够通过视觉输入更多的信息;与手机、PC相比,智能眼镜基本可以做到在简单生活场景中应用解放双手,更方便使用;与其他可穿戴设备相比,比智能手表更贴近感官、交互更方便,比AI PIN等新型硬件拥有更高的接受程度。
VR:应用集中在游戏、观影等,覆盖的消费群体偏窄。VR,虚拟现实,核心是使用户对虚拟场景产生身临其境的感觉,通常基于“透镜+显示屏”的结构,显示屏的图像通过透镜放大后呈现在人眼前,因为屏幕与透镜之间需要保持一定的距离,因此很难做到小型化,尽管透镜从菲涅尔透镜升级至更薄的Pancake镜头,当下最轻的VR头显仍然超过200g(一体式),很难让人长时间佩戴。
此外,由于戴上头显无法看到外部环境,VR设备通常需要在室内环境下使用(MR头显可以通过摄像头捕捉外部环境成像)。因此VR头显的使用场景存在一定的局限性,当前主要局限在游戏、观影等对沉浸式要求较高的场景,很难成为像手机一样的人手一台终端。考虑到VR眼镜的应用场景主要集中在游戏、观影等重度娱乐领域,重度游戏用户极可能愿意购买VR眼镜获得更好游戏体验,VR眼镜出货量的天花板可参考更为成熟的游戏主机出货量。近年来,Switch、PS、Xbox三大系列游戏主机全球销量基本为4000万台-5000万台。
AR: 最接近下一代智能终端的形态,但仍面临光学显示等问题。考虑到VR眼镜的局限性,我们认为AR眼镜更加接近下一代智能终端的形态。与VR眼镜完全呈现虚拟影像不同,AR眼镜是在现实场景之上叠加虚拟影像,尽管当下存在众多的光学方案,但基本原理是利用光的折射、反射、衍射,显示屏发出的光经过反射或者折射进入人眼,同时也允许环境光通过镜片,实现虚拟和现实影像的叠加,能够使用户在更多的场景下佩戴AR眼镜。此外,当前最轻的AR眼镜重量已经降至50g以下,已经较为接近大众日常佩戴的眼镜重量(普通近视眼镜重量约20-35g左右),如果后续重量再进一步下降,有望成为日常佩戴的可穿戴设备。但当前AR眼镜在产业化的道路上,仍然面临显示、光学等一系列问题。例如罗永浩的AR眼镜创业项目因为相关产业链尚不成熟而放弃。
AI眼镜与AR眼镜不应该割裂来看,视觉交互必不可少。AI与AR眼镜并不应该割裂来看,“AI+AR”或许是更好的解决方案。当下市场将AI眼镜定义为主打摄像、语音交互,但并不一定需要具备光学显示的眼镜,例如Ray-Ban Meta、闪极拍拍镜、李未可Meta Lens Chat等。AI眼镜的核心在于智能交互,语音是一种交互方式,但加上视觉交互能取得更好效果,正如人的感官一样,通过眼睛输入的信息超过耳朵与其它感官。带显示的眼镜能够适用于更多的场景,即将AI功能赋予到AR眼镜之上。
AI/AR眼镜已具备AI agent特性。当AI功能融入眼镜,眼镜成为大模型的落地载体之一。2021年Meta发布Ray-Ban Stories时,定位主要是相机+音频眼镜,功能聚焦于第一视角拍摄、听音乐和接打电话;而在2023年发布的Ray-Ban Meta,在接入Llama 3后,功能进一步拓展,用户说 “Hi Meta” 即可唤醒语音助手,实现实时翻译、了解地标的历史、翻译标志、获取食谱、扫描二维码、记下并回忆信息等功能。(考虑到眼镜设备体积小、重量轻,又受功率和热量限制,当前复杂的多模态任务由云端处理,而实时翻译、拍照等任务则由本地处理)Rokid与AI结合诞生了丰富的使用场景,在接入通义千问后,实现了了AI智能搜索、AI识物等功能;接入支付宝后实现一句话打车、点餐、商品付款。更多的衣食住行相关的日常活动可以在手机端处理,成为了真正的个人AI助理。
字节AI玩偶“显眼包”凭借独特的外形和AI能力出圈。显眼包是字节跳动内部研发的一款情感陪伴玩偶,表面上是一款蓝白配色、小山状的毛绒玩具,内在集合了火山引擎的多项人工智能技术,包括豆包大模型、扣子专业版、语音识别和合成等。由于该产品不对外售卖且制作数量不多,在二手平台的转让价格最高达500元。
显眼包具备AI对话交互功能,情感交流表现出色。根据多知网、36氪、Z Finance等媒体对显眼包的测评,显眼包可以与用户进行中英文对话交互,例如讲故事、背诵古诗等;当用户将自己的困惑告诉显眼包时,显眼包也会给出针对性的建议,情感交流和陪伴效果较好。同时还具备记忆能力,可以准确回答前两轮对话的内容。但它在数理逻辑方面表现较弱,无法对9.9和9.11两个数字进行大小比较。
显眼包内嵌了一个AI大脑,从而集成豆包大模型能力。这款AI大脑称为Magicbox魔匣,通过wifi联网的形式调用云端的豆包大模型和扣子专业版能力。它是一款由第三方公司Folotoy研发的通用型AI硬件,整合了AI对话芯片、麦克风和扬声器,体积较小,用户可以将其套在各种玩偶内部,为玩偶增加AI对话和陪伴功能。
AI玩具付费周期长、市场增速高,是当前大模型最佳落地场景之一。AI玩具为用户提供语言和动作交互体验,强化玩具的陪伴功能。从技术的角度看,目前大模型还存在一定的幻觉问题,但AI玩具场景的容错率较高,与大模型的技术现状相匹配;从商业模式的角度看,AI玩具不是一锤子买卖,通常可以采取硬件一次性收费+软件订阅收费的商业模式,用户生命周期更长,客单价也更高;从市场规模的角度看,玩具市场已进入成熟期,NPD数据显示23年全球规模1087亿美元,近5年增速均低于10%,但AI陪伴市场作为新兴赛道,市场空间更大、增速更高,据Ark Invest,2030年全球AI陪伴市场规模有望达1500亿美元。
AI玩具目标用户广泛,同时满足儿童和成年人需求。对于儿童而言:与传统玩具相比,AI玩具不仅可以提供情感陪伴,还可以延伸至口语锻炼、知识科普等教育场景,提供沉浸式、个性化的教育体验。而且教学内容的持续迭代更新,也可以为相关公司提供长期稳定的现金流。
对于成年人而言:从情绪价值与精神消费的角度看,AI玩具提供丰富的情绪价值和社交价值,而且与Character AI、Talkie等AI虚拟陪伴应用相比,AI玩具提供独有的触感和实体属性,陪伴价值更高。据《DT商业观察》发布的《2023青年消费调研》,有近一半的受访青年认为好的商品或服务能够为自己提供情绪价值,41.6%的受访青年表示支出更多是因为自己在今年产生了新的爱好。今年以来IP谷子消费高景气,也恰好反映用户对精神消费的高需求。从实用价值的角度看,AI玩具可以承接智能音箱的更新换代需求,一方面进行音乐播放,另一方面与智能家居联动,成为智能家居新的控制入口。
北美经济衰退预期逐步增强,国际地缘变局冲击全球供应链韧性,企业海外拓展承压;芯片结构性短缺可能制约产能释放与交付节奏;行业竞争加剧触发价格战隐忧,中低端产品毛利率可能跌破盈亏平衡点;原材料成本高企叠加汇率宽幅波动持续侵蚀外向型企业利润空间;技术端则面临大模型迭代周期拉长的风险),影响AI产业化进程;汽车智能化渗透率及工业AI质检等场景落地进度不及预期,或将延缓第二增长曲线兑现。
黄文涛:经济学博士,纽约州立大学访问学者。现任中信建投证券首席经济学家、研究发展部联席负责人、中信建投机构委、投委会委员,董事总经理。兼任南开大学硕士导师、中信改革发展研究基金会咨询委员、中国首席经济学家论坛理事、中国证券业协会首席经济学家委员会委员等职务。多次参与国务院部委等机构形势分析研讨及课题研究。多年荣获新财富、水晶球、金牛奖、保险资管协会等最佳分析师,2016年新财富最佳分析师评比荣获固定收益第一名。2024年荣获服务高质量发展最佳首席经济学家。
阎贵成:中信建投证券通信行业首席分析师,北京大学学士、硕士,近8年中国移动工作经验,9年多证券行业研究工作经验。目前专注于人工智能、云计算、物联网、卫星互联网、5G/6G、光通信等领域研究,曾多次获得证券行业各大评选的通信行业第一名,如新财富、水晶球、金麒麟、上证报、Wind等。
程似骐:汽车行业首席分析师,上海交通大学车辆工程硕士,师从发动机所所长,曾任职于东吴证券、国盛证券,四年证券行业研究经验。2017年新财富第二团队核心成员,2020年新浪财经新锐分析师第一名,2020年金牛最佳汽车行业分析师团队第五名。深度覆盖新能源整车,智能化零部件,把握智能化电动化浪潮,对智能驾驶全产业链最前沿研究,深度跟踪从产业链最上游车载芯片到下游最前沿的L4的商业模式前沿演变。2021年新财富最佳分析师汽车行业第四名。
崔世峰:海外研究首席分析师,南京大学硕士,8年买方及卖方复合从业经历,专注于互联网及科技龙头公司研究。2024新财富海外市场研究第五名;2022-2023年新财富港股及海外最佳研究团队入围;2019-2020年新财富传媒最佳研究团队第二名核心成员。
贺菊颖:中信建投证券医药行业首席分析师,复旦大学管理学硕士,10年以上医药卖方研究从业经验,善于前瞻性把握细分赛道机会,公司研究深入细致,负责整体投资方向判断。2020年度新浪财经金麒麟分析师医药行业第七名、新财富最佳分析师医药行业入围、万德最佳分析师医药行业第四名等荣誉。2019年Wind“金牌分析师”医药行业第1名。2018年Wind“金牌分析师”医药行业第3名,2018第一财经最佳分析师医药行业第1名。2013年新财富医药行业第3名,水晶球医药行业第5名。
黎韬扬:研发部执行总经理、军工与新材料团队首席分析师,北京大学硕士。2015-2017年新财富、水晶球、Wind军工行业第一名团队核心成员,2018-2024年水晶球军工行业上榜,2018-2020年Wind军工行业第一名,2019-2022年金牛奖最佳军工行业分析团队,2018-2024年新财富军工行业上榜、入围。
刘双锋:中信建投证券电子首席分析师。3年深南电路,5年华为工作经验,从事市场洞察、战略规划工作,涉及通信服务、云计算及终端领域,专注于通信服务领域,2018年加入中信建投通信团队。2018年IAMAC最受欢迎卖方分析师通信行业第一名团队成员,2018《水晶球》最佳分析师通信行业第一名团队成员。
刘永旭:中信建投证券通信行业联席首席分析师,南开大学学士、硕士,曾从事军工行业研究工作,2020年加入中信建投通信团队,主要研究云计算IDC、工业互联网、通信新能源、卫星应用、专网通信等方向。2020-2021年《新财富》、《水晶球》通信行业最佳分析师第一名团队成员。
庞佳军:人工智能&电子联席首席分析师。
陶亦然:汽车行业联席首席分析师。曾任银河证券汽车分析师,2018年加入中信建投汽车团队,2018/19年万得金牌分析师团队核心成员,2019/20年新浪财经新锐分析师团队核心成员,2020年金牛最佳行业分析团队核心成员,2021/22年新财富、水晶球最佳分析师团队核心成员。
王在存:中信建投医疗器械及服务首席分析师,北京大学生物医学工程博士,《医疗器械行业蓝皮书》编委。团队负责研究医疗器械与医疗服务各细分赛道的发展趋势和投资机遇,团队成员的医疗产业资源丰富。
许琳:中信建投证券新能源汽车锂电与材料行业首席分析师,7年主机厂供应链管理+2年新能源车研究经验,2021年加入中信建投证券研究发展部,主要覆盖新能源汽车、电池研究。
许光坦:中信建投机械首席分析师,上海交通大学硕士,2021.4-2023.5曾就职于东北证券研究所,2023年5月加入中信建投证券,覆盖工控、传感器、注塑机、机床刀具、锂电设备方向。
杨艾莉:中信建投证券传媒互联网行业首席分析师,中国人民大学传播学硕士,曾任职于百度、新浪,担任商业分析师、战略分析师。2015年起,分别任职于中银国际证券、广发证券,担任传媒与互联网分析师、资深分析师。2019年4月加入中信建投证券研究发展部担任传媒互联网首席分析师。曾荣获2019年wind资讯传播与文化行业金牌分析师第一名;2020年wind资讯传播与文化行业金牌分析师第二名;2020年新浪金麒麟评选传媒行业新锐分析师第二名。
叶乐:中信建投证券纺服轻工及教育行业首席分析师,毕业于复旦大学金融硕士专业,2024年“金牛奖”纺服行业最佳分析师,2023年“新浪金麒麟”菁英分析师纺服第4、家居第5,2020年“新财富”海外最佳分析师第5名团队成员,目前专注于纺服、轻工、黄金珠宝、教育人力、医美个护等消费服务产业研究。
应瑛:中信建投证券计算机行业首席分析师,伦敦国王学院硕士,5年计算机行业研究经验。2021年加入中信建投,深入覆盖医疗信息化、工业软件、云计算、网络安全等细分领域。
于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向
袁清慧:中信建投制药及生物科技组首席分析师。中山大学理学本科,佐治亚州立大学理学硕士,北卡大学教堂山分校医学院研究学者。曾从事阿尔茨海默、肿瘤相关新药研发,擅长创新药产业研究。2018年加入中信建投证券研究发展部,负责制药及生物科技板块。2020年新浪金麒麟分析师医药行业第七名、新财富最佳分析师医药行业入围团队核心成员、Wind金牌分析师医药行业第4名。2019年Wind金牌分析师医药行业第1名。2018年Wind金牌分析师医药行业第3名,第一财经最佳分析师医药行业第1名。2021年新财富最佳分析师医药行业第五名。
赵然:中信建投非银与前瞻研究首席分析师,中国科学技术大学应用统计硕士。曾任中信建投金融工程分析师。目前专注于非银行业及金融科技领域(供应链金融、消费金融、保险科技、区块链、智能投顾/投研、金融IT系统、支付科技等)的研究,深度参与诸多监管机构、金融机构数字化转型及金融科技课题研究。6年证券研究的工作经验。2018年wind金融分析师(金融工程)第二名2019年.2020年Wind金融分析师(非银金融)第四名和第一名,2020年新浪金麒麟非银金融新锐分析师第一名。
朱玥:中信建投证券电力设备新能源行业首席分析师。2021年加入中信建投证券研究发展部,8年证券行业研究经验,曾就职于兴业证券、方正证券,《财经》杂志,专注于新能源产业链研究和国家政策解读跟踪,在2019至2022年期间带领团队多次在新财富、金麒麟,水晶球等行业权威评选中名列前茅。
证券研究报告名称:《AI新纪元:砥砺开疆・智火燎原》
对外发布时间:2025年7月24日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
黄文涛 SAC 编号:S1440510120015
SFC 编号:BEO134
阎贵成 SAC 编号:S1440518040002
SFC 编号:BNS315
程似骐 SAC 编号:S1440520070001
SFC 编号:BQR089
崔世峰 SAC 编号:S1440521100004
SFC 编号:BUI663
贺菊颖 SAC 编号:S1440517050001
SFC 编号:ASZ591
黎韬扬 SAC 编号:S1440516090001
刘双锋 SAC 编号:S1440520070002
刘永旭 SAC 编号:S1440520070014
SFC 编号:BVF090
庞佳军 SAC 编号:S1440524110001
陶亦然 SAC 编号:S1440518060002
王在存 SAC编号:S1440521070003
许琳 SAC 编号:S1440522110001
SFC 编号:BVU271
许光坦 SAC 编号:S1440523060002
杨艾莉 SAC 编号:S1440519060002
SFC 编号:BQI330
叶乐 SAC 编号:S1440519030001
SFC 编号:BOT812
应瑛 SAC 编号:S1440521100010
SFC 编号:BWB917
于芳博 SAC 编号:S1440522030001
SFC 编号:BVA286
袁清慧 SAC编号:S1440520030001
SFC编号:BPW879
赵然 SAC 编号:S1440518100009
SFC 编号:BQQ828
朱玥 SAC 编号:S1440521100008
SFC 编号:BTM546