1.随着AI算力需求持续攀升,传统冯·诺依曼架构的存算性能失配问题日益显著,存算一体化技术成为破局关键。
2.近存计算通过2.5D和3D堆叠技术融合计算与存储单元,有效提升内存带宽并降低延迟,成为芯片性能提升的主流方案。
3.其中,HBM技术已在高性能计算领域占据主导地位,而CUBE方案凭借成本与带宽优势,成为端侧AI设备落地的重要推手。
4.HBM技术通过硅通孔(TSV)技术堆叠DRAM芯片,结合2.5D先进封装,实现高带宽、高容量与低功耗特性。
5.另一方面,CUBE方案通过2.5D/3D封装集成SoC与存储器,以高达1024个I/O实现超高带宽,适用于轻量化场景。
以上内容由腾讯混元大模型生成,仅供参考
随着AI算力需求持续攀升,传统冯·诺依曼架构的存算性能失配问题日益显著,存算一体化技术成为破局关键。近存计算通过2.5D和3D堆叠技术融合计算与存储单元,有效提升内存带宽并降低延迟,成为芯片性能提升的主流方案。其中,HBM技术已在高性能计算领域占据主导地位,而CUBE方案凭借成本与带宽优势,成为端侧AI设备落地的重要推手。
HBM:高性能计算的算力基石
HBM(高带宽内存)通过硅通孔(TSV)技术堆叠DRAM芯片,结合2.5D先进封装,以低频率实现高通道宽度,兼具高带宽、高容量与低功耗特性。自2016年推出以来,HBM历经多代迭代:2018年的HBM2提供256GB/s带宽与8GB容量;2020年的HBM2E将带宽提升至3.6Gbps,容量增至16GB;2022年的HBM3进一步优化堆叠层数,带宽最高达819GB/s;2023年的HBM3E更将传输速度提升至8Gbps,容量扩展至24GB。目前,HBM已广泛应用于数据中心、AI训练等高算力场景,成为支撑大规模并行计算的核心架构。
HBM的技术优势源于其封装创新。通过垂直堆叠DRAMdie,HBM显著增加了单位面积内的I/O数量,同时2.5D封装将处理器与内存紧密集成,缩短数据传输路径。这一设计不仅缓解了传统架构的“内存墙”问题,还降低了功耗,为AI芯片的高效运行提供了物理基础。随着芯片制程逼近物理极限,HBM的技术升级将持续推动算力密度提升。
在高性能计算领域,HBM已成为头部企业的标配。从超算到云端AI训练集群,HBM的高带宽特性能够满足大规模参数模型的实时数据处理需求。未来,随着AI模型参数量的指数级增长,HBM的容量与带宽迭代将进一步加速,成为算力基础设施的核心组件。
CUBE:端侧AI的降本增效利器
与HBM聚焦高性能场景不同,CUBE方案瞄准边缘计算与端侧AI设备,通过2.5D/3D封装集成SoC与存储器,以高达1024个I/O实现超高带宽,适用于可穿戴设备、边缘服务器、协作机器人等轻量化场景。以AI-ISP(图像信号处理器)为例,传统方案依赖高成本SPRAM或多颗LPDDR4芯片,而CUBE通过缩小L3缓存、扩大L4缓存,在降低芯片成本的同时提升带宽效率。
CUBE的核心竞争力在于平衡性能与成本。其封装技术允许主芯片直接访问大容量缓存,减少外部存储器的使用数量,从而降低系统复杂度与功耗。例如,在AI手机中,CUBE可为神经网络处理器(NPU)提供低延迟数据供给,支持实时图像识别与语音处理;在工业机器人中,则能实现多传感器数据的快速融合。这种设计尤其适合算力需求适中但成本敏感的场景。
随着AI终端普及,CUBE的应用潜力持续释放。从智能安防摄像头到AR眼镜,端侧设备对本地化AI处理的需求激增,而CUBE的小体积、低功耗特性恰好匹配此类需求。未来,随着AI模型轻量化技术的成熟,CUBE有望在消费电子、物联网等领域成为主流近存架构,推动端侧AI大规模商业化落地。
(注:文中数据及技术描述均基于输入资料,未引用外部信息。)