人工智能的风靡带来了一系列全新的挑战,也带来了令人眼花缭乱的创新选择和必须做出的权衡。
随着人工智能在边缘设备中的应用日益广泛,再加上对新功能的需求不断增长,迫使芯片制造商不得不重新考虑在何时、何地进行数据处理,使用何种处理器,以及如何在系统内构建足够的灵活性以适应多个市场的应用需求。
与云端不同,云端的解决方案通常需要几乎无限的资源,而边缘计算所需的资源则由于功耗、面积和成本而受到严格限制。不过,与将所有数据发送到云端相比,边缘计算更便宜、更快速、更安全,而且随着人工智能技术的风靡,边缘计算为推理和一些有限的训练带来了大量创新和新机遇。
英飞凌互联安全系统部门总裁Thomas Rosteck在最近的一次演讲中表示:“人工智能正在从云端转移到边缘设备。有了这种智能技术,我们可以节省更多的电力,因为获取数据,然后将其传输到云端,在云端计算,然后再将其取回,这需要消耗大量的电力。这是我们可以通过边缘人工智能解决的问题,而且我们也为减碳做出了贡献。如果不传输数据,而是将其放在本地,那就更安全了。”
边缘涵盖了广泛的系统,从连接到单个电池的移动设备到本地数据中心。无论架构如何,这些设备都具有一个共同的需求,即以与应用程序一致的速率处理、存储和移动越来越多的数据。并且它们都需要一致且可靠地执行这些功能,无论处理器和内存利用率如何,以及噪音、热量或振动等物理影响如何。
由于手机外形尺寸的限制,智能手机等移动设备多年来一直在处理此类问题,它们使用多种处理元件和复杂的热管理来避免烫伤用户。这些措施包括:通过棋盘法确定哪些晶体管处于活动状态以降低动态热密度,在适当的位置添加散热器和热监视器,以及使用不同类型的处理器,包括一些在最先进节点制造的处理器。
智能手机供应商可以接受这些成本,因为可以分摊到数亿台设备上。然而,对于许多其他物联网/边缘设备来说,业务环境非常不同,对价格也很敏感,而且销售数量要少得多。对于这些产品,供应商通常依赖现成的商用组件,如MCU和DSP,其中许多零部件正在不断变化以应对日益增长的计算需求。在某些情况下,设备制造商还将通用处理器与更有针对性的半定制加速器相结合,这可以提高关键性能,从而限制执行特定计算所需的能量。随着人工智能模型开始出现在几乎所有的地方,他们正在以新的方式和组合使用所有这些零部件。
Synaptics副总裁兼边缘AI处理器业务总经理John Weil表示:“我们目前处于人工智能的第二阶段,这就是为什么你会看到人工智能中心之类的东西。例如,以前的安全摄像头可以识别街上行走的人。但现在,这项任务不再由摄像头完成,而是在一个没有云连接的集中式盒子中完成。过去,我们需要云来实现这一点。现在我们可以用非常低成本的产品来实现这一点。人工智能的第三阶段将包括新产品定义,这将创造出改变我们生活的新产品。市场开始定义以前AI不存在时的新产品类别。”
它不仅能提高处理效率,还会影响设备内部和设备之间的处理器使用方式。在许多情况下,它涉及重新考虑系统架构和计算资源的共享。同样,机顶盒的噪声过滤也可以采用与过去不同的方式,使用非常不同的设计方法。
“我们以远场语音通信为例,你有一个正在与之交谈的设备,比如Alexa、Google Home或机顶盒等,”Cadence Tensilica音频/语音DSP产品营销总监Prakash Madhvapathy表示,“有些人会先接收语音输入并进行过滤以降低噪音,在降低噪音之后,他们会通过信号交叉线对其进行处理。这是一种方法。而另一些人则会直接接收带噪声的信号,用带噪声的信号和清晰信号来训练设备,以确保训练出的AI能够像解读清晰数据一样解读带噪声的数据。因此,在这种情况下,噪声成为实际训练数据的一部分,AI随后可以分别解读噪声和信号,并将噪声过滤掉。如果通过适当的训练,它能推断出与用清晰数据推断出的相同结果,那么你就能得到一个非常接近的答案。”
它还有望通过人工智能这一桥梁,为EDA工具与利用这些工具创建的设备之间的关系搭建新的桥梁,从而使它们的关系更加紧密。新思科技系统设计事业部总经理Ravi Subramanian表示:“三代以上的冯·诺依曼架构推动了EDA的发展,这对我们大有裨益。这种学习成果已经非常成熟,我们也已对工具进行了完善,才达到了目前的水平。但现在必须进行全新的学习,而这种学习可以通过AI实现。如今,我们可以构建模型,这为我们的学习在AI尚未出现之前如何推动工具发展提供了巨大的机遇。这都是我们直接与客户探讨的问题。而且,你还必须思考如何应用这些技术。”
散热问题
几十年来,数据中心和智能手机一直在努力解决散热和能效问题,随着数据量不断增长,这些问题变得越来越具有挑战性。但在边缘端,在许多物联网应用中,需求处理历来较低,热量也不是一个大问题。
以蓝牙设备为例。“我们还没有发现这是一个主要问题,主要是因为这些小型物联网设备总体上都是低功耗的,”Ansys产品营销总监Marc Swinnen表示,“它们依靠电池供电,有时也通过收集能量供电,因此都是采用低功耗设计,这意味着对这些设备散热通常不是一个大问题。此外,芯片产生的功耗与其表面积成正比,而不是其体积,随着芯片尺寸的缩小,功耗会随着表面积的缩小而减小,因此冷却也与表面积成正比。如果将芯片缩小一半,它的表面积就只有一半,但产生功耗的表面积也只有一半。与体积效应不同,两者往往并行扩展。”
这些类型的芯片将继续在设备中使用,但随着人工智能被集成入越来越多的设备和系统中,还需要增加功能更强大的处理器。
“有些芯片的功耗非常小,因此不会真正导致系统发热,”Rambus技术总监Scott Best表示,“但系统中通常会有一些零部件会导致过热。每个芯片都存在这种局部发热问题。芯片内部或系统内的某些零部件会产生热量,并自行加热周围的所有东西。”
医疗设备和监视器的快速普及使人们高度重视这些问题。根据设备测量或检测的内容,可能会有各种各样的处理需求和热问题。不同的是,如今解决这些问题的方案比过去更多。
“即使电池容量等技术仍采用目前的技术,当你监测人体健康时——无论是植入肾脏还是其他器官,还是从表面监测——你都无需进行连续监测,”Cadence的Madhvapathy说道,“如果你能每小时或每两小时监测一次,那么设备的续航时间就会更长。”
当然,这在很大程度上取决于应用。但总体趋势是数据处理无处不在,这使得散热不仅成为设备健康问题,而且成为用户安全和舒适度问题。
西门子EDA公司电子与半导体Simcenter行业总监John Parry表示:“无论是在手机上编辑自己的照片,还是用手表检查心率、睡眠质量或血氧水平,物联网设备在我们的日常生活中都发挥着重要作用。它们消耗电池电量,并产生热量。消除这些热量很重要,但也是一个真正的挑战。对于可穿戴设备来说,主要的热流路径是传导到皮肤。皮肤表面温度必须保持在45°C以下。否则,有低温烧伤的风险。手机的挑战在于无法保证手机壳的传导。用户通常会使用手机套来防止意外损坏,从而阻碍散热。”
解决方案各不相同
设计中几乎每个问题都有对应的解决方案,如果没有,聪明的工程师也会开发一个。然而,更大的挑战是了解一个或多个芯片将如何使用,并在设计中拥有足够的灵活性,以便能够根据需求进行调整。
“我们有一个MCU,还有一个协处理器,用于运行芯片的AI部分,”英飞凌的Rosteck表示,“这个芯片还包含一个GPU。因此,我们可以非常灵活地处理这些任务。而且,语言模型不仅要在核心上运行,还需要加速器。第二步是帮助我们的客户获得他们所需的模型。我们去年收购了Imagimob,现在我们拥有了一个工具链,这个工具链有一个好处,模型可以由该领域的专家设计,您也可以将其与AI专家相结合,以达到您想要的深度。最后,它将被转换成代码,然后可以在我们的宏上执行。”
解决方案千差万别,这一点在热管理方面尤其明显。例如,热量可以通过设备或芯片的表面散发,但当芯片很小,并且在先进封装中,当基板变薄以缩短信号需要垂直传输的距离时,这变得更加困难。
“设计师需要最大限度地提高可用表面积的有效性,因此,为了优化冷却效果,一个有效的策略就是散热,”Parry表示,“这意味着使用超薄均热板将设备内的热量从主要发热元件上扩散开来,以减少设备表面的热点。均匀加热的表面可最大限度地提高可用表面的有效性,同时最大限度地减少热点。”
业内人士表示,均热板并不是一个新想法,但过去它并没有成功,因为目标设备是移动的,而移动会大大降低它的有效性。
还可以实施许多其他策略来确保过热不会影响设备性能或给用户带来风险。这对于仍然有严格热限制的用例尤其重要。
Quadric首席营销官Steve Roddy表示:“一种可行的方法是将各种零部件和SoC子系统IP模块在最坏情况的持续功耗额定值相加,并验证如果每个主要系统都处于全速运行状态,各部件的总和是否不超过整个设备的热额定值。这可以通过检查各个组件制造商的规格表或IP模块供应商的额定值,并应用一些常识性的经验法则(哪些系统可能会同时‘开启’)来完成,而无需进行广泛的设计分析或模拟。虽然这种方法可能很快捷且对工程时间的投入要求较低,但其缺点是可能会夸大实际的活动功耗场景,可能会为了热设计目标而牺牲峰值性能或降低功能。”
第二种较新的方法依赖于创建全芯片和全系统数字孪生,其中包括每种模式下已知或预期的功耗的模型。
Roddy表示:“各家EDA公司一直在宣传他们的最新工具,以帮助促进这种左移方法,这种方法允许设计人员在进行芯片或电路板设计之前,对虚拟系统进行建模并运行实际的嵌入式软件代码。如果在精确的系统模型上运行实际代码,则可以在更精细的层面上对实际行为进行建模,以确定问题的答案,例如‘此DDR接口上的实际片外I/O流量是多少,因此实际耗散是多少?系统A是否真的与系统B同时‘开启’,或者我是否可以使用经过调整的软件对它们进行时间多路复用,以实现更低的峰值功耗?’”
使用这种方法有助于预测系统功耗并在设计约束内实现最大性能。
虽然控制热量首先可以通过控制电压来实现,但Ansys的Swinnen表示,可以采用更复杂的策略,特别是通过复杂的时钟门控形式。但这种方法需要特别小心,可能非常耗时,并且需要在设计过程的初期就开始考虑。
“不仅仅是大模块,任何可以关闭的小模块也是如此,”他表示,“他们有非常复杂的时钟结构来实现这一点。在设计阶段,当你看到典型的时钟门控工具,如新思科技的Power Compiler时,它们会将一个门置于少数几个触发器之前,然后每个可以关闭触发器都有自己的门控。但事实上,所有这些门控都可以统一成一个更靠近树根的门控,而不是关闭这一组五个、那一组五个和另外六个。相反,你只需要一个门控就可以关闭它们。问题是,你必须在设计中小心谨慎,因为该时钟门控的使能信号(用于将其“打开”和“关闭”)必须在树结构中越来越高,并使时序越来越紧密。
然而,这也有其自身的缺点,因为时钟切换和信号本身之间的延迟可能会变得越来越大。这限制了设计师推动时钟门控的程度,需要在时序和功率效率之间进行权衡。Swinnen指出,虽然有一些解决方案可以实现最大功率效率,但这些时钟需要在门控或RTL级别手动配置。这种方法让设计师头疼,而且由于需要测试的节点组合增加了,它会使功率分析变得复杂。“你可以节省功率,但需要有人努力调整设计,并确保时序正确,而如果使用自动系统,我只需设置10个时钟门控。这也可以,但效率不会那么高。”
Quadric的Roddy指出,一些现代工具使设计人员能够根据实际代码计算功率特性,而不仅仅是测量总周期数。“与更依赖激活、规范化和形状变换的更现代的转换器相比,传统的卷积神经网络中大量使用5 x 5 和3 x 3卷积,因此切换门的时间会更长,”他表示。
一些看似显而易见的解决方案也有缺点。Swinnen以助听器为例,过热的芯片可能会导致严重问题。在这种情况下,他表示,需要内置安全措施,例如嵌入热传感器,以便在出现异常信号时降低时钟速度。“这会降低设备性能,因此您无法达到标称性能,但温度会保持在一定范围内。这是一种有点像简单粗暴的方法。你并没有真正解决问题,只是解决了症状。”
Swinnen指出,物联网设备的冷却问题在未来几年可能会变得更加重要,因为一些公司已经宣布希望将更多的人工智能计算从数据中心转移到边缘端。这可能会迫使设计师给予比现在更多的思量。“电源一直是一个软故障点,而不是硬故障点,”他表示,“如果你不满足性能或DRC,如果你的形状对于代工厂来说太接近,这些都是硬错误。你不能用这些东西流片,他们会保留流片并重新设计,直到他们修复这些问题。但电源更多地被视为软要求。”
基本选择
在这些努力的背后,存在着何种方法最高效且成本效益最高这一问题,即在尽可能减少数据移动的同时(这对于人工智能和日益增长的数据量来说是一个日益重要的考虑因素),优化数据的处理和管理,无论这些处理和管理在哪里进行。
“这实际上关乎了解应用程序的数据移动要求,”Rambus的研究员兼杰出发明家Steven Woo说道,“问题在于如何正确执行此操作以及适用于哪些应用程序。没有哪一种应用程序能够从中获益。应用程序有很多,优化它们的方式也各不相同。每个人都明白这是一个大问题。”
所有这些的关键在于了解什么方法在什么情况下最有效。“我们花了很多时间帮助客户弄清楚如何避免过度设计问题,”Synaptics的Weil表示,“当我们说‘AI原生’时,你不需要所有的额外性能,因为你只在研究模式下使用它。所以你当然可以使用NVIDIA Jetson。它很棒,价格是普通产品的两到三倍,而且性能强劲。但是当你想生产一百万台设备时,你就不会使用它。我们花了很多时间帮助他们研究更优化的方案。”