【臻知灼见·原创投稿】光计算与智能感知:原理、应用及发展趋势

光计算与智能感知:

原理、应用及发展趋势

清华大学电子工程系博士后 张财华

清华大学电子工程系博士研究生 黄铮

清华大学电子工程系教授 陈宏伟


引言

“景到,在午有端,与景长,说在端”,这是公元前4世纪《墨经》中对光的原理和现象的记录,也是世界上最早利用光对景物进行成像和感知的记载。现如今,光学感知早已渗透到生产生活的方方面面。从智能手机到单反相机,从工业生产到航空航天,从医疗诊断到智能家居,从交通出行到虚拟现实,光学感知已经成为推动现代科技进步与社会发展的重要力量。 

日益复杂的机器视觉任务对感知系统的功耗、响应速度、安全性能等方面提出了更高的要求,而传统的感知链路中,传感器采集海量图像数据,其中夹杂着大量与任务无关的冗余数据,数据的存储、传输和处理压力成为限制系统功耗和速度的瓶颈。光计算能在传感器前端利用光学元器件对光信息进行调制处理,实现部分计算功能,逐渐成为解决这一问题的有力途径。近年来,越来越多的研究人员专注于利用光学手段实现计算功能,一些关键问题被提及并解决,光计算在智能感知中的应用正在向着实用化方向发展。

光计算以其速度快、功耗低、并行性强等优势成为推动智能感知技术发展的重要力量。本文介绍了光学感知的基本流程和智能感知的主要特点,分析了计算在感知中的重要作用,介绍了光计算带来的感知架构的转变,重点介绍了本课题组在光计算与智能感知领域的研究成果,最后对光计算在智能感知中应用的发展趋势进行展望。


01

眼睛:精密的光学感知系统

在《墨经》问世之前,虽然没有文字记载,但是光学感知一直是人类感知世界最为基本与原始的途径。眼睛是精密的成像仪器,如图1所示,人们通过眼睛将外界景物成像到视网膜上,视网膜将光信号转变成电信号,再通过视神经传向大脑,大脑的视觉中枢对电信号进行一系列复杂的神经网络处理,形成对外界景物的完整认知。这种光学感知包含了三个主要过程:光信号的捕捉、光信号向电信号的转换、电信号的计算处理


图片

图1 视觉产生原理图(图源:本文作者)


人类视觉系统所代表的光学感知基本流程,为现代技术发展提供了蓝本。在光信号捕捉阶段,光学镜头实现了眼睛的角膜、晶状体等协同工作的功能,通过对光线的折射和聚焦,将不同距离、角度的光线引导至视网膜。视网膜上的光感受器类似于CCD、CMOS等图像传感器,光学镜头和图像传感器组成了我们熟悉的相机。而在大脑中进行的电信号计算处理则是一个高度复杂且尚未完全被人类理解的过程。视觉中枢的神经元网络会对视网膜传来的电信号进行特征提取、模式识别等操作。通过与大脑中已有的经验和知识相结合,从而识别出物体和场景。


02

光学感知走向智能化:

从“成像中心”像“信息中心转变”

在相当长的一段时间里,人们将大量的精力和资源都倾注于成像质量的提升上,这极大地推动了光学镜头、图像传感器等前端成像技术的发展。

在光学镜头方面,其设计和制造工艺不断进化,从最初简单的玻璃镜片组合,到非球面镜片、复杂的自由曲面镜片设计,配合上变焦能力和光圈调节,整个镜头的像差得到更为出色的优化,光线能够更加精准地聚焦,从而使成像效果愈发清晰。在图像传感器方面,CCD、CMOS传感器在分辨率、灵敏度方面不断攀升,高分辨率意味着能够捕捉到更多的图像细节,这使画面更加细腻丰富,而灵敏度的提升则赋予了传感器在不同光照条件下的出色表现能力。

然而,随着技术的发展,在前端成像技术不断进步的同时,后端计算却在很大程度上被忽视了。传统的光学系统是以成像为中心的,追求的是极致的成像效果。而随着应用场景的日益复杂和多样化,感知系统的功能不再仅仅是记录高质量图像,而是向着更加智能化的方向发展:从光线中提取出丰富的信息,并完成分类、识别等任务,即系统逐渐向以信息为中心转变。

这种忽视带来了一些问题。一方面,大量的高质量图像数据被生成后却面临着处理效率低下的困境,传统的计算架构在处理这些高分辨率、大容量的图像数据时显得力不从心。处理时间过长,导致在一些需要实时处理图像的场景中无法满足快速响应的要求;高能耗的计算过程不仅增加了成本,也限制了设备的使用时长和范围。另一方面,高质量的成像在以信息为中心的智能感知中存在信息冗余,原本不需要的信息也被一并纳入,这不仅增加了数据传输和存储的负担,还会干扰关键信息的提取和处理。大量无用信息充斥在数据中,就像杂质一样,使得真正有价值的信息可能被淹没,增加了后端计算分析的复杂性和资源消耗,进而影响整个智能感知系统的效率和精准度。

因此,在以信息为中心的智能感知中,信息的计算处理已成为核心关键。


03

智能感知中的计算

在早期,为了应对光学感知所产生的图像数据处理需求,计算机芯片的性能不断提升,处理器从单核发展为多核,通过多个处理核心并行工作以处理多个任务,在一定程度上提高了图像数据处理的速度。同时,图形处理单元(GPU)的应用也为后端计算带来了巨大变革。GPU拥有大量的计算核心,能够同时对多个像素点或图像块进行处理,使得计算时间大幅缩短。

不仅硬件方面在不断改进,软件层面同样在积极探索以适应智能感知计算需求。在软件层面,相关算法不断优化。比如图像压缩算法的改进,新的算法可以在保证图像质量的前提下,更高效地压缩图像数据,减少数据存储和传输压力。同时,图像特征提取算法不断更新,能够更准确地从图像中提取关键信息,如边缘、纹理、形状等,为后续的图像识别和分析提供更有力的支持。

随着人工智能技术的出现和发展,深度学习算法成为了后端计算发展的核心驱动力。大数据技术提供了丰富的数据资源和分析手段,大量的图像数据积累形成了庞大的数据集。基于卷积神经网络(CNN)的深度学习算法可以利用数据集来训练模型,自动从图像中学习特征,从而实现对物体的高精度识别。同时,人工智能还推动了后端计算向智能化决策方向发展,使得其不仅能够识别图像内容,还能根据识别结果做出相应的决策,拓展了光学感知后端计算的功能和价值。

目前,智能感知任务正朝着前所未有的复杂程度迈进。从自动驾驶到医疗影像诊断,再到智能家居系统,这些场景对计算能力和速度提出了极高的要求。然而,随着摩尔定律的失效,电神经网络算力的不足日益凸显,芯片性能提升遭遇瓶颈。

在这种困境下,光计算作为一种极具潜力的新兴计算方式进入了人们的视野。光计算利用光子作为信息载体,而光子具速度快、可并行性强等独特优势。与电信号相比,光信号在传播过程中几乎没有电阻和电容的影响,极大地减少了功耗和信号传输延迟。而且,光计算在大规模并行计算方面展现出了非凡的潜力,恰能满足智能感知任务对海量数据快速处理的需求,为突破当前计算瓶颈带来了希望。


04

光计算:创造智能感知新架构

光计算的产生和发展既提高了智能感知后端计算的效率,又改变了感知过程的整体架构。智能感知系统已经从以成像为中心逐步转变为以信息为中心,在这一转变过程中,成像质量不再是衡量系统性能的唯一关键指标,高分辨率成像也不再是系统的绝对必要条件。这一观念的转变为光计算在感知架构中的前置应用提供了契机。原本在后端进行的计算功能,如今可以借助光计算技术提前到光域进行。传统的“感—传—算”架构因此发生了深刻变化,其中的“算”不再局限于数据传输后的处理环节,而是可以部分或者全部转移到“感”之前,在光的传播过程中实现计算功能,如图2所示。


图片

图2 光计算创造智能感知新架构(图源:本文作者)


这种架构的转变具有深远的意义。在新架构下,在光学传感器前的光路中融入光计算功能,通过光学元器件对光线携带的信息进行卷积、非线性等初步分析和计算,提取一些基本特征,在数据采集前实现预处理,就像在源头为数据“贴上标签”。这样,后续传输的数据量可以得到有效减少,减轻了传输、存储和计算压力。而且,由于提前进行了计算,系统能够更快地获取有价值的信息,在实时性要求极高的应用场景中,如自动驾驶、智能安防监控等,能够更快地做出决策。此外,可以根据不同的应用场景和需求,动态调整感知参数和计算策略,实现对特定信息的重点关注和高效采集,进一步优化整个智能感知系统的性能。


05

光计算在智能感知中的应用探索

光计算引领的新型智能感知架构本质上要解决各种计算功能在光学上如何实现的问题。卷积神经网络在结构上主要包括卷积层、非线性层、全连接层等,分别实现卷积计算、非线性激活以及分类决策。目前,国内外相关的研究刚刚开展,本课题组也开展了多方面工作。


5.1


国内外的研究成果


在国际上,美国UCLA大学提出了衍射光学神经网络,在光学域进行了多层光计算,可以进行目标分类等任务[1]。国内的上海理工大学、湖南大学等也在多层衍射加工方面有所建树[2,3]。清华大学提出了衍射光学神经网络与新型传感器结合的计算模式[4]。但是,衍射光学神经网络通常需要在相干光环境下进行工作,应用场景极为受限,同时光学尺度下的高密度衍射模板加工也很困难,多层网络缺乏有效的光学非线性实现方案。在非相干光甚至自然光场景下,实现光学计算成为了目前研究的热点。美国斯坦福大学和华盛顿大学的研究人员利用4-F光学系统搭建了光学卷积和全连接神经网络,进行了图像分类等任务[5,6]。美国康奈尔大学利用像增强器和液晶调制器的组合,实现了可用于自然光环境下的多层全连接光学神经网络[7]。然而,这些基于透镜组合的系统往往因为长度较大,而难以在边缘检测系统中应用。


5.2


本课题组的相关工作


光计算在智能感知中应用的一大难点,是如何在实际环境中利用光学元器件实现设计好的计算功能。本课题组面向实际应用,聚焦非相干光条件,针对智能成像和各类机器视觉任务,研究各计算功能如何在光上实现,提出光计算参数的训练架构,并开发相关智能系统。

5.2.1 无透镜光电混合神经网络

对于非相干甚至是自然光环境,最直接的光场信息就是强度。本课题组基于对光强度信息的调制,提出了用于机器视觉任务的无透镜光电神经网络(LOEN)架构[8]。该架构在成像光路中插入无源掩模版,通过合理设计掩膜版上的透射小孔可以实现对目标场景的滑动扫描成像,根据光的直线传播理论,在传感器上得到的像在数学上符合卷积的定义。这样,就实现了非相干光下的卷积计算。同时,面向手写数字识别等特定视觉任务,将整个光电神经网络进行端到端联合优化,实现了全链路功耗和体积的“极简化”,如图3所示。


图片

图3 (a)非相干光卷积计算原理;

(b)光电联合优化的神经网络架构

(图源:Light: Science and Applications[8]


此外,无源光学掩模版的加入,能够在光上直接进行特征提取,形成人眼不可辨认的光场景信息混叠图像,这就实现了从光学采集到视觉任务完成全过程的图像加密,可应用在隐私保护的各种视觉任务场景中。课题组以人脸识别任务验证了该架构中光学加密的性能,使用经过端到端优化后的掩模版,在实现隐私保护加密的同时,基本可以达到与无加密人脸识别相近的精度,如图4所示。


图片

图4 无透镜卷积实现隐私保护的人脸识别

(图源:Light: Science and Applications[8]


5.2.2 像素级光学编码视觉感知与计算

针对动静区分、动作识别等动态场景任务,课题组利用空间光调制器(DMD)实现了有源的光学逐像素余弦编码[9]。如图5所示,DMD和传感器组成离散余弦变换(DCT)相机,DMD加载一组随时间变化的DCT编码基对场景光信号进行逐像素编码,编码光信号通过中间透镜后传输到图像传感器,中间透镜会逐像素缩放信号大小以适应传感器尺寸,传感器在曝光时间内对编码信号进行积分,从而实现在单次拍摄中捕获时域DCT数据,再经过后端网络进行处理和识别。


图片

图5 基于逐像素余弦编码的动作识别流程

(图源:APL Photonics[9]


该方法实现“感算一体”,大大简化后端数字图像处理的难度,同时也实现了光域上像素级别的光学编码。我们将其扩展为一个商用相机:元相机(MataCam)[10],如图6所示。基于逐像素的光学调控,元相机可以进一步实现高动态范围成像、视频压缩感知等智能成像功能。


图片

图6 元相机实物图与压缩感知、高动态范围成像的效果对比图

(图源:Metacam[10]


5.2.3 非线性无源多层光学神经网络

在卷积神经网络中,非线性激活函数表示输入输出之间复杂的任意函数映射,可以增加模型的拟合能力。但是,光计算中遇到的最大问题就是只能执行线性运算。而如果层间没有非线性激活函数,无论神经网络有多少层,输出都是输入的线性组合,多层线性操作等价为一层线性操作。

因此,我们提出了一种紧凑的非线性无源多层光学神经网络(MONN)架构[11]。该架构由无源掩模版与量子点薄膜组成,可以通过对量子点薄膜参数的合理设计,实现近似Relu函数的非线性特性,完成非相干光照明下具有层间非线性激活的多层光学计算。如图7所示,该架构包含2层卷积层和1层非线性层,光学长度短至5 mm,相比现有的基于透镜的光学神经网络小2个数量级。实验证明,该多层运算架构在各种视觉任务的性能上优于线性单层运算,最高可将95%的计算从电域转移到光域进行。该架构具有小体积、低功耗、高实用性的优势,未来有望部署在自动驾驶、智能制造、虚拟现实等移动视觉场景。


图片

图7 非线性无源多层光学神经网络

(图源:Science Advances[11]


5.2.4 光学神经网络训练架构

深度神经网络现有的训练架构大多数是基于物理硬件与数学运算之间存在直接的数学同构,利用端到端的方法训练物理系统参数。但由于光学神经网络涉及到各种光电器件,其中包含难以精确测量的非线性过程,无法建立其准确的数学表达,而且部分光学计算过程无法严格的显式表征,或是无法在反向传播时对参数求梯度。因此,我们提出了用于光学神经网络的参数训练架构:采用Forward-Forward(FF)算法,直接训练由可控的物理系统结构驱动的深度光学神经网络,为可训练的物理层建立一个局部损失函数,用局部训练取代反向传播和梯度更新,将输入输出之间每个未知的非线性映射看成一个黑盒,结合软硬件协同的在线训练,完成对黑盒结构之后的可解析线性物理过程的参数更新,如图8所示。


图片

图8 光学神经网络训练方法(图源:本文作者)


06

智能感知中光计算的发展趋势:

更大、更多、更全

智能成像、机器视觉等智能感知技术将为人工智能时代提供关键的数据支撑,而光计算将在其中发挥越来越重要的作用。目前,非相干光场景中的光计算功能已经逐步实现,未来,相关研究将向着实用化方向迈进,实现“更大、更多、更全”的性能。

“更大”,即实现更大规模数据的处理。光学神经网络的基本功能实现后,需要考虑其在实际场景中的应用问题,其中最重要的就是对高分辨率数据的处理能力。工业检测、卫星遥感等实际应用场景的数据(一般是图像)分辨率是几十万、几百万级的,而现有的光学神经网络一般处理MNIST、Fashion-MNIST等几百像素的数据,因此,实现大规模数据的光计算是未来的发展趋势,也是该技术走向应用必须要解决的问题。

“更多”,即实现更多的计算层数。对于复杂的感知任务,一般需要多个计算层,比如多层卷积和非线性激活、多层全连接等,通过多个计算层,可以对输入的感知数据进行分层特征提取,从而更精准地识别目标物体的特征。因此,为了充分发挥光计算在低能耗、高速率方面的优势,一个重要的趋势是将更多计算层转移到光上实现,为此,必须研究层间光子再生与放大等技术,保证多层光计算的有效性。

“更全”,即实现全光计算。将电神经网络的各功能层在光上全部实现是我们追求的目标,为此,需要研究更多的光学调制维度(如偏振、波长等)和方法来在光上实现全部计算功能。同时,也需要在集成度、稳定性、精度等方面进行持续探索,让光计算在更大范围内广泛应用。


参考文献:

[1] Lin X, Rivenson Y, Yardimci N T, et al. All-Optical Machine Learning Using Diffractive Deep Neural Networks[J]. Science, 2018, 361(6406): 1004-1008.

[2] Goi E, Chen X, Zhang Q, et al. Nanoprinted high-neuron-density optical linear perceptrons performing near-infrared inference on a CMOS chip[J]. Light: Science and Applications, 2021, (003): 010.

[3] Luo X, Hu Y, Ou X, et al. Metasurface-enabled on-chip multiplexed diffractive neural networks in the visible[J]. Light: Science and Applications, 2022, 11(7): 1443-53.

[4] Chen Y, Nazhamaiti M, Xu H, et al. All-analog photoelectronic chip for high-speed vision tasks[J]. Nature, 2023, 623(7985): 48-57.

[5] Julie C, Vincent S, Xiong D, et al. Hybrid optical-electronic convolutional neural networks with optimized diffractive optics for image classification[J]. Scientific Reports, 2018, 8(1): 12324.

[6] Miscuglio M, Hu Z, Li S, et al. Massively Parallel Amplitude-Only Fourier Neural Network[J]. Optica, 2020, 7(12): 1812-1819.

[7] Wang T, Sohoni M M, Wright L G, et al. Image sensing with multilayer nonlinear optical neural networks[J]. Nature photonics, 2023, 17: 408-415.

[8] Shi W, Huang Z, Huang H, et al. LOEN: Lensless opto-electronic neural network empowered machine vision[J]. Light: Science and Applications, 2022, 11(6): 1118-1129.

[9] Liang Y, Huang H H, Li J W, et al. Action recognition based on discrete cosine transform by optical pixel-wise encoding[J]. APL Photonics, 2022, 7(11): 116101.

[10] 北京清智元视科技有限公司. MetaCam[EB/OL]. (2023-09-22)[2024-11-21]. https://www.metacam.tech/.

[11] Huang Z, Shi W, Wu S, et al. Pre-sensor computing with compact multilayer optical neural network[J]. Science Advances, 2024, 10(30): eado8516.


图片

排版 | 杨赞宇

审核 | 魏一凡 刘宇 胡琨