1.国泰君安证券研究报告指出,当前智能手机离线推理速度的主要瓶颈在于内存带宽而非算力。
2.通过NPU+DRAM堆叠技术,内存带宽将呈现数量级提升,这一技术方案产业趋势明确。
3.由于此,中国大陆玩家兆易创新及其投资子公司青耘科技、光羽芯成,以及中国台湾存储IDM华邦电、手机AP龙头高通等,均发力3D DRAM+NPU方案。
4.产业现阶段为硬件领先于模型,未来是模型爆发吃硬件红利,硬件方案需要经过几年以上的稳定性测试才能在数亿量级产品端进行商用。
以上内容由腾讯混元大模型生成,仅供参考
本文转载自微信公众号:国泰君安证券研究
报告导读:当前推理速度主要瓶颈在于内存带宽而非算力,NPU+DRAM堆叠后内存带宽呈现数量级提升,这一技术方案产业趋势明确。
行业观点及投资建议。当前推理速度主要瓶颈在于内存带宽而非算力,NPU+DRAM堆叠后内存带宽呈现数量级提升,这一技术方案产业趋势明确。给予行业“增持”评级。
当前主要瓶颈在内存带宽,而非算力。以高通骁龙8GEN3为例,其NPU算力约45 TOPs,内存带宽约为67 GB/s,若运行7B大模型,代入前述公式得到计算能力限制约3215 tokens/s,内存带宽限制约4.8 tokens/s,最终速度取两者中的最小值,确保实际推理不受硬件瓶颈限制,而其内存限制瓶颈明显远大于计算限制。以小米手机离线实测Qwen3-8B-MNN模型来看,Decode: 222 tokens,7.04 tokens/s,综合而言问题平均回复时间32秒,对用户而言,相对无感的推理速度需达40-50 tokens/s。
端侧AI内存限制问题由3D DRAM解决。DRAM+NPU通过HB堆叠的形式合封,我们假设以800 GB/s的内存带宽代入上述高通骁龙8GEN3的问题,内存限制将提升至57 tokens/s。中国大陆玩家兆易创新及其投资子公司青耘科技、光羽芯成,以及中国台湾存储IDM华邦电、手机AP龙头高通等,均发力3D DRAM+NPU方案,技术趋势明确。
端侧AI是先有模型还是先有硬件?我们认为,产业现阶段为硬件领先于模型,而未来是模型爆发吃硬件红利。模型可以在一夜之间涌现能力,但硬件不能。通常而言,如果硬件方案没有经过几年以上的稳定性测试,无法在数亿量级产品端进行商用。现在的手机AP龙头高通必须主动采用适合AI大模型设备的策略,以防止被手机端“GPU”革命的风险。如若手机AI在2025年底或2026年商用爆发,准备好硬件与模型的企业将迎来至少一年的红利窗口期,这一年足够决胜负。
风险提示:AI应用渗透不及预期;技术发展不及预期。
文章来源
本文摘自:2025年5月5日发布的 AI手机的离线推理速度取决于内存带宽瓶颈的突破
舒 迪,资格证书编号:S0880521070002
吴小沛,资格证书编号:S0880125042240
更多国泰海通研究和服务
亦可联系对口销售获取
重要提醒
本订阅号所载内容仅面向国泰海通证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰海通证券研究服务签约客户,为保证服务质量、控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。我们对由此给您造成的不便表示诚挚歉意,非常感谢您的理解与配合!如有任何疑问,敬请按照文末联系方式与我们联系。
法律声明
本公众订阅号(微信号: GTHT RESEARCH )为国泰海通证券股份有限公司(以下简称“国泰海通证券”) 研究所依法设立、独立运营的唯一官方订阅号。其他机构或个人在微信平台上以国泰海通研究所名义注册的,或含有“国泰海通研究",或含有与国泰海通证券研究所品牌名称相关信息的其他订阅号均不是国泰海通证券研究所官方订阅号。
本订阅号不是国泰海通证券研究报告发布平台,本订阅号所载内容均来自于国泰海通证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰海通证券研究所发布的完整报告。
在任何情况下,本订阅号的内容不构成对任何人的投资建议,国泰海通证券也不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。
本订阅号所载内容版权仅为国泰海通证券所有,国泰海通证券对本订阅号保留一切法律权利。订阅人对本订阅号发布的所有内容(包括文字、影像等)进行复制、转载的,需注明出处为“国泰海通研究”, 且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。