·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发
来源:东方财富网
AI 的飞速发展,对算力提出了极高要求。大模型训练动辄需要海量计算资源,以 GPT-3 为例,其训练一次消耗的算力高达 3640 PF-days,相当于约 17500 块英伟达 V100 GPU 全年不停运算。且随着模型愈发复杂、数据量指数级增长,算力需求正以每年数倍速度攀升。
在 AI 算力的核心硬件体系中,存储芯片起着关键基石作用。传统存储芯片在应对 AI 需求时却暴露出诸多瓶颈。一方面,“冯・诺依曼瓶颈” 导致数据在存储与计算单元间频繁搬运,造成巨大延迟与功耗浪费,在 AI 大数据量处理场景下,数据搬运功耗甚至超计算本身;另一方面,传统存储带宽难以满足 AI 瞬间爆发的数据读写需求,内存墙问题愈发突出,严重制约计算效率提升。
在此困境下,存内处理(PIM)技术应运而生,成为突破存储瓶颈、提升 AI 算力的希望之光。PIM 打破传统存储与计算分离架构,将计算单元嵌入存储芯片内部,使数据无需远距离搬运即可就地处理,大幅降低延迟、削减功耗,为 AI 芯片发展开辟全新路径,有望引领下一代存储革命,重塑半导体产业格局。
来源:今日头条
存算一体:颠覆传统的技术革新
传统计算架构,尤其是冯·诺依曼架构,虽然在计算机科学的发展中发挥了重要作用,但其固有的计算与存储分离的模式在面对现代计算需求时逐渐显现出局限性。随着信息技术的飞速发展,尤其是人工智能、大数据等领域的兴起,对计算速度和效率的要求不断提高。然而,在冯·诺依曼架构下,计算单元(如CPU、GPU)与存储单元(如DRAM)之间的物理分离导致了数据传输的瓶颈,即所谓的“冯·诺依曼瓶颈”。数据在计算单元和存储单元之间频繁地来回搬运,不仅消耗了大量的时间,还产生了巨大的能耗,严重影响了系统的整体性能和效率。
正是为了解决这一问题,存算一体技术应运而生。它旨在打破传统冯·诺依曼架构下计算与存储分离的桎梏,将存储与计算功能深度融合于同一芯片之中。
在经典冯·诺依曼架构里,计算单元与存储单元相互独立,数据需在两者间频繁往返搬运。以深度学习中的卷积神经网络运算为例,大量图像数据存储于内存,计算时要不断从内存读取像素值至计算单元,完成一层卷积计算后,结果又要写回内存,供下一层计算调用,这一过程消耗大量时间与能量,数据搬运延迟及功耗成为制约算力提升的关键瓶颈,有研究表明,数据搬运功耗可达计算功耗的千倍,严重拖慢整体运算效率。
存算一体技术则反其道而行之,通过在存储芯片内部嵌入计算单元,或是赋予存储单元计算能力,让数据无需长途跋涉即可就地完成处理。如基于忆阻器(RRAM)的存算一体方案,忆阻器既能存储数据,又能利用其电阻变化特性,在存储数据的同时直接完成矩阵乘法等计算操作,实现存储与计算的同步执行,一步到位得出结果,无需额外的数据搬运步骤,从根本上削减延迟、降低能耗,为高算力需求场景开辟全新路径。
存内处理(PIM)作为存算一体的关键分支,与近存计算、存内计算既有联系又有显著区别。近存计算侧重于利用先进封装技术,如 2.5D、3D 堆叠,将计算芯片与存储芯片紧密靠近,缩短数据传输路径,提升访存带宽,以减少数据搬运延迟,典型应用如 AMD、Intel 等采用 HBM 技术的产品,但本质仍未摆脱存算分离架构,计算核心与存储核心相对独立。存内计算则追求存储与计算的极致融合,像某些基于 SRAM 的存内计算芯片,直接改写存储单元电路,使其兼具计算功能,计算在存储阵列内部完成,能最大程度发挥并行计算潜力,但技术难度高、设计复杂度大。
PIM 存内处理处于两者之间,巧妙平衡了能效、精度与实现复杂度。它聚焦于将核心计算流程嵌入存储芯片,以应对数据密集型任务。以大数据分析中的频繁项集挖掘为例,海量交易数据存储于 PIM 芯片内,其内置的专用计算单元可直接对存储数据扫描、计数,快速找出频繁出现的商品组合模式,无需像传统架构那样先将数据搬至外部计算单元,避免了大量无效数据传输,能效相比传统架构提升数倍。再如实时视频处理,视频流数据持续写入 PIM 芯片存储区,同时芯片内的计算模块迅速进行图像增强、目标识别等操作,确保视频处理的低延迟与流畅性,充分彰显 PIM 在提升数据处理时效、优化能效方面的独特优势,为 AI、大数据等前沿领域注入强大动力。
来源:智研咨询整理
来源:IT之家
来源:SAMSUNG
来源:苹芯科技
来源:摄图网
来源:摄图网