今年的诺贝尔物理学奖授予了利用物理学工具奠定现代机器学习基础的研究者。John Hopfield创建了一种可以存储和重建信息的模型结构,Geoffrey Hinton发明了一种能够独立发现数据特征的方法,这种方法对于目前使用的大型人工神经网络至关重要。
利用物理学寻找信息中的模式
很多人都体验过计算机如何在语言之间进行翻译、解释图像,甚至与人类进行合理的对话。然而,或许不为人知的是,这种技术长期以来在科学研究中扮演着重要角色,特别是在处理和分析海量数据方面。过去的十五到二十年间,机器学习利用了一种称为人工神经网络的结构,取得了飞速发展。如今,当我们谈论“人工智能”时,通常指的就是这种技术。
虽然计算机本身无法进行思考,但机器现在能够模拟诸如记忆和学习等功能。今年的物理学奖得主们在这一领域作出了重要贡献。他们利用物理学的基本概念和方法,开发了基于网络结构来处理信息的技术。
与传统的软件不同,机器学习不再依赖于明确的指令步骤。传统软件的工作原理类似于执行一套配方:它接收数据,按照清晰的描述进行处理,最终输出结果,就像有人根据配方收集原料并制作蛋糕一样。而在机器学习中,计算机通过大量示例进行学习,使其能够应对那些模糊且复杂的问题,这些问题无法通过逐步的指令来解决。例如,解释一张图片以识别其中的物体。
▷图片来源:诺贝尔物理学委员会 制图:Johan Jarnestad 瑞典皇家科学院
模拟大脑
人工神经网络通过整个网络结构来处理信息,其灵感最初来源于对大脑工作原理的研究。20世纪40年代,研究人员开始探索大脑中神经元和突触网络背后的数学原理。另一重要启发来自心理学,尤其是神经科学家Donald Hebb提出的学习机制假设:当神经元共同工作时,它们之间的连接会被强化。
这些想法后来被用于通过计算机模拟构建人工神经网络,以模仿大脑的功能。在这些模拟中,大脑的神经元被“节点”表示,这些节点被赋予不同的值,突触则由节点之间的“连接”表示,这些连接可以变强或变弱。Donald Hebb的假设至今仍是人工神经网络训练过程中的基本规则之一,这个过程称为“训练”。
20 世纪 60 年代末,一些理论上的困难让许多研究人员怀疑神经网络是否有实际用途。然而,20 世纪 80 年代,对人工神经网络的兴趣重新燃起,这部分得益于今年诺贝尔奖得主们提出的几项重要创新。
▷图片来源:诺贝尔物理学委员会。制图:Johan Jarnestad 瑞典皇家科学院
联想记忆
想象你在试图记住一个不常用的单词,比如电影和演讲厅中常见的倾斜地板。你在记忆中搜寻,想到ramp……或许是rad…ial?不对,是rake,对,就是它!
这种通过相似单词寻找正确单词的过程类似于物理学家John Hopfield在1982年发现的联想记忆。“Hopfield网络”可以存储模式,并具备重建它们的方法。当网络接收到一个不完整或稍有扭曲的模式时,这种方法可以找到与之最相似的存储模式。
Hopfield曾利用他的物理学背景探索分子生物学中的理论问题。当他受邀参加一个关于神经科学的会议时,他接触到了有关大脑结构的研究。这引起了他的浓厚兴趣,他开始思考简单神经网络的动力学。当神经元一起工作时,它们可以产生新的、强大的特性,而这些特性在单个神经元上并不显现。
1980年,Hopfield离开普林斯顿大学,加入加州理工学院(Caltech),担任化学和生物学教授。在那里,他可以自由使用计算资源进行实验,并发展关于“神经网络”的想法。
尽管他转向了生物学和化学领域,Hopfield依然受益于他的物理学背景,特别是在理解许多小组件共同作用时如何产生新特性方面。他的灵感来自于磁性材料,这些材料因原子自旋的相互影响而具有特殊特性,形成具有相同方向自旋的域。他利用这些物理学原理,建立了一个由节点和连接构成的模型网络。
在能量景观中保存图像
Hopfield建立的网络由通过不同强度连接的节点组成,这些节点可以存储独立的值。在最初的工作中,这些值可以是0或1,就像黑白图像中的像素一样。
Hopfield使用类似于物理学中“自旋系统能量”的概念来描述网络的整体状态;能量的计算公式考虑了所有节点的值及其之间连接的强度。Hopfield网络通过将图像输入节点进行编程,这些节点被赋予黑色(0)或白色(1)的值。网络的连接随后根据能量公式进行调整,使保存的图像具有最低能量。当另一个模式输入到网络时,网络会逐个节点进行检查,如果改变该节点的值可以降低网络的能量,例如黑色像素变成白色,能量会减少,它就会改变颜色对应的值。这个过程持续进行,直到无法找到进一步的改进。当达到这一点时,网络通常已经重现了它被训练的原始图像。
如果只保存一种模式,这可能不会显得那么引人注目。也许你想知道为什么不直接保存图像本身并将其与正在测试的另一张图像进行比较,但Hopfield的方法的特别之处在于它可以同时保存多个图像,并且网络通常能够区分它们。
Hopfield将寻找网络中已保存状态的过程比作将一个球滚过一个有山峰和山谷的地形,摩擦力减缓了它的运动。如果将球在某个位置释放,它会滚到最近的山谷并停在那里。同样地,如果给网络一个接近已保存模式的输入,它会移动,直到到达能量景观中的某个山谷底部,从而找到最接近的记忆模式。
Hopfield网络可用于重建包含噪声或已经部分丢失的数据。Hopfield和其他研究人员继续改进网络功能,包括让节点存储任意值,而不仅仅是零或一。改进的方法使得网络可以保存更多图像,并在它们相似的情况下仍能区分它们。识别或重建任何信息都是可能的,只要它是由许多数据点构建的。
▷图片来源:诺贝尔物理学委员会。制图:Johan Jarnestad 瑞典皇家科学院
利用十九世纪物理学进行分类
记住一张图像是一回事,但解释它的内容需要更多能力。
即使是小孩子也能轻松地识别不同的动物,并正确地说出它们是狗、猫还是松鼠。即使没有看到任何图表或物种或哺乳动物等概念的解释,孩子也可以学到这一点。在遇到每种动物的一些例子后,不同的类别就会在孩子的头脑中就位。人们通过体验周围的环境来学习识别一只猫,或者理解一个单词,或者进入一个房间并注意到某些东西发生了变化。
当Hopfield发表关于联想记忆的文章时,Geoffrey Hinton正在卡内基梅隆大学工作。他之前在英国学习过实验心理学和人工智能,想知道机器是否也能像人类一样通过处理模式找到自己的分类方法,并解释信息。他与同事Terrence Sejnowski一起,利用统计物理学的思想,基于Hopfield网络构建了一种新方法。
统计物理学描述了由许多相似元素组成的系统,例如气体中的分子。虽然很难跟踪每个分子的运动,但可以通过整体性质(如压力或温度)来描述系统的状态。可以使用统计物理学来分析各个组件可以共同存在的状态,并计算它们发生的概率。某些状态比其他状态更可能发生,这取决于能量的多少,这在19世纪物理学家Ludwig玻尔兹曼的方程中得到了描述。Hinton利用了这个方程,并在1985年发表了这项工作,称为“玻尔兹曼机”。
识别相同类型的新样本
玻尔兹曼机由两种类型的节点组成:可见节点和隐藏节点。信息输入到可见节点,隐藏节点则形成隐藏层。隐藏节点的值和连接也会对整个网络的能量产生影响。
玻尔兹曼机通过逐一更新节点值来运行,最终进入一种稳定状态。在这种状态下,节点的模式可能改变,但网络的整体性质保持不变。每个可能的模式都有一个由网络能量根据玻尔兹曼方程决定的特定概率。当机器停止时,它会生成一个新模式,使得玻尔兹曼机成为早期的生成模型之一。
▷图片来源:诺贝尔物理学委员会。制图:Johan Jarnestad 瑞典皇家科学院
玻尔兹曼机通过提供样本来进行学习,而不是依靠明确的指令。通过更新网络连接的值,使训练时输入的样本模式具有最高的发生概率。如果在训练过程中多次重复同一模式,那么该模式的概率会更高。训练还会影响输出新模式的概率,这些新模式类似于训练样本。
训练后的玻尔兹曼机能够识别其未见过的信息中的熟悉特征。想象你见到朋友的兄弟姐妹,你能立即看出他们有亲属关系。同样,玻尔兹曼机可以识别属于训练数据类别的新样本,并将其与其他不相似的材料区分开来。
在原始形式中,玻尔兹曼机效率较低,找到解决方案需要较长时间。然而,Hinton继续探索改进方法,使得机器更加高效。后来的版本中,一些节点之间的连接被移除,证明可以提高效率。
20世纪90年代,许多研究人员对人工神经网络失去了兴趣,但Hinton是少数继续在该领域工作的人之一。2006年,他与Simon Osindero、Yee Whye Teh和Ruslan Salakhutdinov开发了一种用多层玻尔兹曼机逐层进行“预训练”的方法。预训练为网络连接提供了更好的起点,优化了识别图像元素的训练。
玻尔兹曼机通常作为更大网络的一部分使用。例如,它可以根据观众的偏好推荐电影或电视剧。
机器学习的现在与未来
得益于他们自20世纪80年代起的工作,John Hopfield和Geoffrey Hinton为2010年左右开始的机器学习革命奠定了基础。
今天我们看到的快速发展,得益于大量用于训练网络的数据,以及计算能力的大幅提升。今天的人工神经网络通常规模庞大,由多层结构构成,被称为“深度神经网络”,其训练方法被称为“深度学习”。
回顾Hopfield在1982年发表的关于联想记忆的文章,可以更好地理解这一发展过程。他使用了一个包含30个节点的网络,如果所有节点都相互连接,这些节点之间共有435个连接,总共需要跟踪不到500个参数。他还尝试了一个包含100个节点的网络,但当时的计算机无法处理这么高的复杂度。我们可以将其与当今的大型语言模型进行比较,今天的大型语言模型包含超过一万亿个参数。
目前,许多研究人员致力于开发机器学习的应用领域,但其最有前景的应用仍有待观察。同时,围绕这一技术的伦理问题也在进行广泛讨论。
物理学为机器学习的发展提供了工具,令人感兴趣的是,物理学本身也在从人工神经网络中受益。机器学习已长期应用于诺贝尔物理学奖相关的研究领域,例如利用机器学习筛选和处理大量数据以发现希格斯玻色子。其他应用包括减少测量黑洞碰撞产生的引力波中的噪声,或搜寻系外行星。
近年来,这项技术还被用于计算和预测分子和材料的特性,例如预测蛋白质分子的结构,这决定了它们的功能,或者研究哪些新材料可以用于更高效的太阳能电池。
来源: