本文由半导体产业纵横(ID:ICVIEWS)综合
未来的芯片可能会从我们的大脑结构中汲取灵感。
神经形态计算是一种旨在模仿大脑的硬件设计和算法方法。这一概念并不是描述一个精确的复制品,一个充满合成神经元和人工灰质的机器人大脑。相反,从事这一领域的专家正在设计一个计算系统的所有层来反映大脑的效率。与传统计算机相比,人脑几乎不使用任何电力,即使面对模糊或定义不明确的数据和输入,也能有效地解决任务。
在某些情况下,这些努力仍处于深入研发阶段,目前它们大多存在于实验室中。但在其中一个案例中,原型性能数据表明,受大脑启发的计算机处理器很快就会上市。
什么是神经形态计算?
从词源上讲,“神经形态”一词的字面意思是“大脑或神经元形状的特征”。但这个术语是否适合该领域或特定处理器可能取决于你问的对象。它可能意味着试图重现人脑中突触和神经元行为的电路,也可能意味着从大脑处理和存储信息的方式中获取概念灵感的计算。
如果听起来神经形态计算(或大脑启发式计算)领域有些悬而未决,那只是因为研究人员在构建模拟大脑的计算机系统时采用了截然不同的方法。IBM 研究部门及其他机构的科学家多年来一直在努力开发这些机器,但该领域尚未找到典型的神经形态架构。
一种常见的脑启发计算方法是创建非常简单、抽象的生物神经元和突触模型。这些模型本质上是使用标量乘法的静态非线性函数。在这种情况下,信息以浮点数的形式传播。当信息被放大时,结果就是深度学习。简单地说,深度学习是脑启发的——所有这些数学神经元加起来就是模仿某些大脑功能的东西。
IBM 研究科学家 Abu Sebastian 表示:“在过去十年左右的时间里,这项技术取得了巨大成功,绝大多数从事与脑启发计算相关工作的人实际上都在从事与此相关的工作。”他表示,通过结合神经元或突触动力学进行交流,可以用其他脑启发方式来用数学模拟神经元。
另一方面,模拟方法使用先进的材料,可以存储 0 到 1 之间的连续电导值,并执行多级处理——使用欧姆定律进行乘法,并使用基尔霍夫电流总和累积部分和。
片上存储器如何消除经典瓶颈
类脑计算架构方法的一个共同特点是片上内存,也称为内存计算。与传统微处理器相比,这是芯片结构的根本性转变。
大脑分为多个区域和电路,记忆形成和学习(实际上是数据处理和存储)都位于同一位置。传统计算机并非如此设置。使用传统处理器时,内存与进行计算的处理器是分开的,信息通过电路在两者之间来回传输。但在包含片上内存的神经形态架构中,记忆与精细处理紧密相关,就像在大脑中一样。
这种架构是 IBM 内存计算芯片设计的主要特征,无论是模拟还是数字。
将计算和内存放在一起的理由是,机器学习任务是计算密集型的,但任务本身并不一定很复杂。换句话说,有大量称为矩阵乘法的简单计算。限制因素不是处理器太慢,而是在内存和计算之间来回移动数据需要太长时间并消耗太多能量,尤其是在处理繁重的工作负载和基于 AI 的应用程序时。这种缺陷被称为冯·诺依曼瓶颈,以自微芯片时代开始以来几乎每种芯片设计都采用的冯·诺依曼架构命名。借助内存计算,可以通过从 AI 训练和推理等数据密集型过程中消除这种混乱来节省大量能源和延迟。
在 AI 推理的情况下,突触权重存储在内存中。这些权重决定了节点之间的连接强度,在神经网络的情况下,它们是应用于通过它们运行的矩阵乘法运算的值。如果突触权重存储在与处理位置分开的地方,并且必须来回传送,那么每个操作所花费的能量将始终在某个点稳定下来,这意味着更多的能量最终不会带来更好的性能。塞巴斯蒂安和他的同事开发了 IBM 的一种受大脑启发的芯片Hermes,他们相信他们必须打破移动突触权重所造成的障碍。目标是制造性能更高、占用空间更小的 AI 加速器。
“内存计算将内存和计算之间的物理分离最小化或减少到零,”神经形态设备和系统小组的 IBM 研究科学家 Valeria Bragaglia 说。
以IBM 的 NorthPole 芯片为例,计算结构是围绕内存构建的。但 NorthPole 并没有像模拟计算那样将内存和计算放在完全相同的空间中,而是将它们交织在一起,因此可以更具体地称为“近内存”。但效果本质上是一样的。
受大脑启发的芯片如何模拟神经元和突触
加州理工学院电气工程研究员卡弗·米德 (Carver Mead) 早在 20 世纪 90 年代就对神经形态计算领域产生了巨大影响,当时他和他的同事意识到有可能创建一种在现象学层面上类似于神经元放电的模拟设备。
几十年后,Hermes 和 IBM 的另一款原型模拟 AI 芯片基本上就是这么做的:模拟单元既执行计算,又存储突触权重,就像大脑中的神经元一样。这两种模拟芯片都包含数百万个纳米级相变存储器 (PCM) 设备,这是一种模拟计算版本的脑细胞。
PCM 设备通过电流流过它们来分配权重,从而改变一块硫属化物玻璃的物理状态。当更多的电压通过它时,这种玻璃会从晶体重新排列成非晶态固体。这使其导电性降低,从而改变矩阵乘法运算通过它时的值。在软件中训练 AI 模型后,所有突触权重都存储在这些 PCM 设备中,就像记忆存储在生物突触中一样。
“突触不仅存储信息,还有助于计算,”IBM 研究科学家 Ghazi Sarwat Syed 说道,他致力于设计 PCM 中使用的材料和设备架构。“对于某些计算,例如深度神经网络推理,在 PCM 中共置计算和内存不仅可以克服冯·诺依曼瓶颈,而且这些设备还可以存储中间值,而不仅仅是典型晶体管的 1 和 0。” 目标是创建计算精度更高的设备,可以密集地封装在芯片上,并且可以用超低电流和功率进行编程。
“此外,我们正在尝试让这些设备更具特色,”他说。“生物突触可以长时间以非易失性的方式存储信息,但它们也会发生短暂的变化。”因此,他的团队正在研究如何改变模拟内存,以更好地模拟生物突触。一旦你有了这个,你就可以设计出新的算法来解决数字计算机难以解决的问题。
Bragaglia 指出,这些模拟设备的缺点之一是它们目前仅限于推理。“目前还没有可用于训练的设备,因为移动重量的准确性还不够高,”她说。一旦人工智能模型在数字架构上进行了训练,重量就可以被固定到 PCM 单元中,但直接通过训练来改变重量还不够精确。此外,Syed 表示,PCM 设备的耐用性不足以让其电导率改变一万亿次甚至更多次,就像在训练期间发生的那样。
IBM 研究部门的多个团队正在努力解决材料特性不理想和计算保真度不足造成的问题。其中一种方法涉及新算法,该算法可以解决 PCM 中模型权重更新期间产生的错误。它们仍处于开发阶段,但早期结果表明,很快就可以在模拟设备上进行模型训练。
Bragaglia 参与了解决这个问题的材料科学方法:一种称为电阻式随机存取存储器或 RRAM 的不同类型的存储设备。RRAM 的工作原理与 PCM 类似,将突触权重的值存储在物理设备中。原子丝位于绝缘体内部的两个电极之间。在 AI 训练期间,输入电压会改变丝的氧化,从而以非常精细的方式改变其电阻——并且在推理过程中,该电阻被读取为权重。这些单元以交叉阵列的形式排列在芯片上,形成了一个突触权重网络。到目前为止,这种结构已经显示出在模拟芯片中执行计算的同时保持更新灵活性的前景。这是在 IBM 的几个研究团队经过多年的材料和算法共同优化后才实现的。
除了存储记忆的方式之外,一些神经形态计算机芯片中数据流动的方式可能与传统芯片中的流动方式存在根本区别。在典型的同步电路(大多数计算机处理器)中,数据流基于时钟,具有连续振荡电流来同步电路的动作。时钟可以有不同的结构和多层,包括时钟倍频器,使微处理器能够以不同于电路其余部分的速率运行。但从根本上讲,即使没有数据正在处理,事情也会发生。
Syed 表示,生物学采用的是事件驱动的脉冲。“我们的神经细胞很少进行交流,这就是我们如此高效的原因,”他补充道。换句话说,大脑只在必须工作时才工作,因此通过采用这种异步数据处理流,人工模拟可以节省大量能源。
不过,IBM 研究部门研发的所有三款受大脑启发的芯片均采用标准时钟流程进行设计。
在其中一个案例中,IBM 研究人员表示,他们在边缘和数据中心应用方面取得了重大进展。IBM 研究员 Dharmendra Modha 表示:“我们希望从大脑中学习,但我们希望以数学的方式从大脑中学习,同时针对硅进行优化。”他的实验室开发了 NorthPole,它不是通过晶体管物理学模拟神经元和突触的现象,而是以数字方式捕捉它们的近似数学。NorthPole 采用公理化设计,并融合了受大脑启发的低精度;分布式、模块化、核心阵列,在核心内部和核心之间具有大规模计算并行性;近计算内存;以及片上网络。NorthPole 还从 TrueNorth 的脉冲神经元和异步设计转变为同步设计。
TrueNorth是一款实验性处理器,也是更为复杂且可供商业化的 NorthPole 的早期跳板。对于这款处理器,莫德哈和他的团队意识到,事件驱动的脉冲使用硅基晶体管的效率很低。大脑中的神经元以大约 10 赫兹(每秒 10 次)的频率发射,而当今的晶体管以千兆赫为单位运行 - IBM 的 Z 16 中的晶体管以 5 GHz 运行,MacBook 的六核 Intel Core i7 中的晶体管以 2.6 GHz 运行。如果人脑中的突触以与笔记本电脑相同的速率运作,“我们的大脑就会爆炸”,赛义德说。在诸如 Hermes 之类的神经形态计算机芯片中 - 或受大脑启发的芯片(如 NorthPole)中,目标是将数据处理方式的生物启发与 AI 应用程序所需的高带宽操作相结合。
由于他们选择放弃类似神经元的脉冲和其他模仿大脑物理的特征,莫德哈表示,他的团队更倾向于使用“大脑启发”计算一词,而不是“神经形态”。他预计 NorthPole 有很大的发展空间,因为他们可以以纯数学和以应用为中心的方式调整架构,以获得更多收益,同时还可以利用硅片的扩展和从用户反馈中吸取的教训。数据显示,他们的策略奏效了:在莫德哈团队的最新成果中,NorthPole 对 30 亿参数模型的推理速度比下一个最节能的 GPU 快 46.9 倍,能效比下一个最低延迟的 GPU 高 72.7 倍。
边缘思考:神经形态计算应用
Syed 表示,研究人员可能仍在定义什么是神经形态计算,或者构建大脑启发电路的最佳方法,但他们倾向于认为它非常适合边缘应用——手机、自动驾驶汽车和其他可以利用预先训练的模型进行快速、高效的 AI 推理的应用。Sebastian 表示,在边缘使用 PCM 芯片的一个好处是,它们可以非常小巧、性能高且价格低廉。
Modha 表示,机器人应用可能非常适合大脑启发式计算,以及视频分析,例如店内安全摄像头。Bragaglia 表示,将神经形态计算应用于边缘应用可以帮助解决数据隐私问题,因为设备内推理芯片意味着数据不需要在设备之间或云端来回传输,即可进行 AI 推理。
无论最终哪种脑启发式处理器或神经形态处理器胜出,研究人员也一致认为,目前的 AI 模型过于复杂,无法在传统 CPU 或 GPU 上运行。需要有新一代电路来运行这些庞大的模型。
“这是一个非常激动人心的目标,”Bragaglia说。“这非常困难,但非常令人兴奋。而且它正在进展中。”
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。