高通下一代舱驾一体芯片SA8797与SA8799

欢迎关注下方公众号阿宝1990,本公众号专注于自动驾驶和智能座舱,每天给你一篇汽车干货,我们始于车,但不止于车。


美国东部时间10月21日,高通召开骁龙2024高峰会,每年10月底或11月,高通都会召开高峰会发布新一代手机旗舰产品。2024年与众不同,除了发布手机旗舰芯片8 Elite外,还发布了第四代车载芯片骁龙Cockpit Elite和骁龙Ride Elite,三者基于同样的平台。有人说,Snapdragon Ride Elite,智能驾驶芯片就是8797;Snapdragon Cockpit Elite,座舱芯片就是8397。笔者认为可能不对,因为8 Elite系列是8到12核心,而8797和8397目前可以确认的是CPU核心,一个是18核心,一个是12或16核心,8797的18核心是12个大核心,6个小核心,这与8 Elite的12个全大核心差别明显,不大可能是一个平台的,且采用8 Elite的笔记本电脑已经上市,汽车芯片也完全可以同步上市,但目前没有。


图片

图片来源:高通


这里仍然将座舱和智能驾驶分开,并且和手机、笔记本电脑是同样的平台。笔记本电脑方面透露的消息比较多,因此大胆推测,SA8797和第二代笔记本电脑X Elite平台是一致的,这就是 X2 Elite。


图片

图片来源:网络


高通目前舱驾一体芯片是SA8775。SA8255/SA8775/SA8770三款芯片大约在2022年初完成设计,这三款芯片差别极小,其中SA8255和SA8775主要区别是SA8775多了两个通用DSP,AI算力最高达到了72TOPS,而SA8255的AI算力最高为48TOPS。此外,SA8775与SA8770只有CPU频率差别,SA8770的CPU频率最高是2.1GHz,SA8775是2.35GHz。SA8255定位于高端座舱领域,SA8775定位于舱驾一体,不过无论是CPU和AI,算力都不算突出,特别是CPU,舱驾一体需要更强大的CPU。中国市场竞争激烈,对芯片性能需求飞速增长,SA8775在面对英伟达Thor时差距非常大,据说目前英伟达Thor-Super可能有些问题,量产时间推后,但中低端的Thor还是正常推进,2025年便有采用Thor的量产车上市,所以很多车企对SA8775处于观望态度。SA8775的命运可能与高通智能驾驶第一代芯片SA8540一样。


实际在2022年高通就已经规划了更高级的SA8797和SA8799,不过和ARM的指令集授权纠缠似乎消耗了高通不少时间,产品进度明显落后于英伟达。


SA8775内部框架图

图片

图片来源:网络


解决了与ARM的纠纷后,高通开始爆发,核心的CPU架构即Oryon目前已完成两次迭代,第三代Oryon即将于2026年一季度登场,而SA8797也正式确定于2026年一季度登场。大概率会搭载第三代Oryon。


X2 Elite也是预定2026年一季度上市,目前只有一些很简单的信息。


图片

图片来源:网络


之前有媒体说SA8797是18核心设计,GPU算力是8.1TFLOPS,AI算力是320TOPS,存储带宽是800GB/s,位宽是256比特,支持LPDDR5X,CPU算力是500kDMIPS。这其中存储带宽800GB/s肯定是错误的,因为LPDDR5X最高是10667MT/s,256比特,存储带宽就是10667*256=273GB/s,和英伟达的Thor-X是一样的。GPU算力是8.1TFLOPS可能也是错误的,GPU主要对应32位浮点运算,汽车领域主要是整数8位运算,没必要这么大,GPU算力是最消耗成本的,钢应该用在刀刃上。


图片

数据来源:网络


上表是高通Elite一代的各部分所占die size,具体的数值是错的,但比例是对的。高通一代Elite的die size大约是165-182平方毫米,台积电4纳米工艺,英伟达的Orin其die size是455平方毫米,三星8纳米工艺,基本上Orin的纯晶圆制造也就是硬件成本大约是Elite的两倍。GPU和CPU所占比例相当,是最高的,NPU大致是GPU的42%。存储方面,一代Elite用的是128bit,面积大约8-9平方毫米,和NPU差不多,存储扩展不是简单的线性倍数,而是更高。高通SA8797若真是256bit,那么所占面积与CPU差不多,也是20-22平方毫米,这可谓是下了血本了,但高通一向在成本方面控制得紧,大概率还是192bit。存储带宽是10667*192=204.8GB/s,追平Orin。


图片

图片来源:网络


上面是苹果M3系列芯片的die shot,M3 MAX的位宽是512bit所占的die size远比128bit要多的多。一般手机都是64bit,远远低于苹果的M3。


Transformer大模型时代,存储比算力重要得多,很简单,推理延迟中80-90%都是来自解码部分,这部分纯粹是内存运作,典型的访存bound阶段。这也是为何HBM非常重要,而美国要严禁HBM对中国销售的原因,高级AI芯片的焦点都在存储而非算力,当然对外宣传还是以算力为主。


高通X Elite的内存带宽是136GB/s。https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/Unlocking-on-device-generative-AI-with-an-NPU-and-heterogeneous-computing.pdf,在这份文件里,高通有这样一段话,Accordingly, our NPU has been refined over generations and across many learnings to remove bottlenecks. For example, many of the architecture upgrades in the NPU for Snapdragon 8 Gen 3 help with accelerating large generative AI models. Memory bandwidth is the bottleneck for LLM token generation, which means that performance is limited by memory bandwidth rather than processing. We subsequently focused on memory bandwidth efficiency. Snapdragon 8 Gen 3 also supports one of the industry’s fastest memory configurations, LPDDR5x at 4.8GHz and 77GB/s, to address rising memory demands for generative AI use cases.


高通说了内存带宽是大模型的瓶颈,然后说8 gen3的内存配置是最快的,有77GB/s。


图片

图片来源:高通


上图是高通对第四代车载芯片即Elite Cockpit和Elite Ride的介绍。与第三代比CPU有三倍提升,这个第三代有多款芯片,高通只是含糊地说和第三代比,但没说和哪一款芯片比。如果和CPU算力最低的SA8620比,三倍就是240k DMIPS;如果与SA8295比,那就是660k DMIPS。Elite Cockpit和Elite Ride都是十二核心CPU设计,是二代Oryon,SA8797是第三代Oryon,且是18核心设计,预计CPU算力可能是700-1000k DMIPS,对比英伟达Thor-X是630k DMIPS,这点高通更强。AI方面,高通说有12倍的提升,第三代车载芯片的NPU算力在10-100TOPS之间,SA8255最低版本的NPU算力仅10TOPS,SA8650则有100TOPS,即便按最低的10TOPS算,Elite的NPU算力也有120TOPS,如果按SA8295为第三代,那就是360TOPS,考虑到成本,SA8797可能略微缩减,320TOPS可能性比较高。


以上均是推断,以高通的官方信息为准。


英伟达的Thor、瑞萨的X5H以及高通的SA8797上市,这才标志着中央计算时代、软件定义汽车时代的到来,芯片是决定性因素,上游芯片厂家决定了5年甚至10年的汽车是什么样的电子架构和性能。


免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。