|作者:王磊1,† 张潘2,††
(1 中国科学院物理研究所)
(2 中国科学院理论物理研究所)
本文选自《物理》2025年第1期
摘要 2024年诺贝尔物理学奖授予约翰·霍普菲尔德和杰弗里·辛顿,这对很多人来说是出乎意料的。文章将从统计物理的视角,从伊辛模型出发,逐步介绍霍普菲尔德和辛顿的主要贡献,其中包括Hopfield模型、玻尔兹曼机、非监督学习,以及现代生成模型。还将回顾统计物理和机器学习在20世纪末期的精彩合作历程,并对未来物理与机器学习交互领域的发展方向进行简单展望。
关键词 玻尔兹曼机,Hopfield模型,伊辛模型,机器学习,统计物理,生成模型
其中E(s)是能量函数,是配分函数,即玻尔兹曼分布的归一化因子。如果要问每个构型s严格的概率,我们需要知道配分函数的数值。直接的配分函数计算需要对2n个构型的玻尔兹曼权重求和,这在大的系统中也是个天文数字,无法直接计算。因此我们可以看到,在机器学习和统计物理中都面对着非常相似的计算困难,也都需要有效的算法,以及强大的计算能力。相比于统计物理中那些自然界给定的哈密顿量和分布,在机器学习中描述概率分布是更加困难的问题,因为人们甚至没有一个“给定”的模型来描述数据分布。正如本文将要向大家介绍的,在生成学习的开端,受到统计物理的启发,杰弗里·辛顿(Geoffrey Hinton)确实是用自然界的分布——玻尔兹曼分布,来参数化数据的概率分布的。
在自然界中,玻尔兹曼分布是司空见惯的。例如我们都很熟悉的冰和液态水,它们由同样的水分子构成,但水分子的构型在不同温度下遵从的玻尔兹曼分布不同。在不同温度下对玻尔兹曼分布进行采样,所观察到的水分子的构型就不相同了。这造就了在低温下常常看到冰这种形态,而在高温下一般看到的是水这种形态。而这些样本是大自然从玻尔兹曼分布中采样所生成的,采样的能力来自于自然界。
图1 同样的水分子在不同温度下的玻尔兹曼分布是不同的,对它们进行采样会得到不同的样本以及物质形态
图2 (a)数据作为动力学的吸引子;(b)Hopfield模型的相图[9]
图3 与机器学习相关的统计物理和神经网络发展的对照表格
在机器学习方面,生成学习的确是在20世纪80年代时沿着玻尔兹曼分布展开的。Hopfield模型虽然在理论神经科学、联想记忆、机器学习领域都具有里程碑似的意义,但它最多能存储0.138n个数据[9],且要求数据之间不能存在关联,这给Hopfield模型的实际应用带来了很多困难。对Hopfield模型的改进是非常自然的:可以不用通过Hebb规则构造伊辛模型的耦合参量Jij,逐步学习这些耦合参量。在统计物理中这种做法被称为反伊辛问题(inverse Ising problem)。在反伊辛问题中,损失函数是负对数似然度(negative log-likelihood)。对它优化的目标是找到一组Jij,使得玻尔兹曼分布在生成所有训练数据
时的概率最大化,也等价于最小化训练数据的经验分布与玻尔兹曼分布之间的Kullback—Leibler(KL)散度。通常的优化方法是计算出损失函数相对于参数的梯度,然后利用梯度信息优化损失函数。对于反伊辛问题[18],它的梯度为
辛顿与合作者发明的玻尔兹曼机(Boltzmann machine,BM)[19]可以解决反伊辛模型中对关联的表述,以及模型的整体表达能力问题。在玻尔兹曼机中,n个显变量的构型v={v1, v2 ⋯, vn}以及m个隐变量的构型h={h1, h2 ⋯, hm}的联合分布概率满足玻尔兹曼分布:
图4 从训练数据中学习到RBM的参数Wia,使得在RBM的能量图景中,数据构型能量低而随机构型能量高。从RBM的分布中采样可以生成新的数据
图5 生成式机器学习的时间轴
图6 有4个变量的自回归模型的一个简单实现
人们利用ChatGPT和类似的模型根据提示词生成新的文本,这个生成过程的本质是利用了自回归模型的采样,因为描述一句话中字符(token)的联合分布概率的Transformer加上了因果掩码(Causal mask)之后,就可以从学习到的联合分布中一个词一个词的采样,就像图6中所展示的,一个自旋一个自旋地生成4个变量的自旋构型一样。这种方式也造就了近年来大语言模型的辉煌。
在粒子物理和宇宙学方向上,例如LHC、LSST、LIGO等大科学装置需要处理大量的数据,本身就离不开机器学习的方法。而在处理数据的过程中需要做大量正向的量子场论、微扰方法、广义相对论等模拟计算,已经广泛地采用神经网络和GPU进行计算的大幅加速,机器学习方法也广泛应用于Jet物理中的flavor标记、jet聚类、谱密度分析等等。在中微子物理中,神经网络被用于信号处理从而寻找中微子相互作用位置;在引力波物理中,神经网络分类器被用于快速判断是否存在引力波信号,流模型也被用于引力波波源的参数学习。在格点量子色动力学中,即使不考虑符号问题计算也非常困难,传统方法利用Hamilton MCMC需要花费巨大的计算代价才能获取有限的组态,因此如何利用生成模型提高组态获取的效率是非常重要的问题。
参考文献
[1] The Nobel Prize in Physics 2024. https://www. nobelprize. org/prizes/physics/2024/summary/
[2] They cracked the code for proteins’amazing structures. https://www.nobelprize.org/prizes/chemistry/2024/press-release/
[3] Midjourney主页. https://www.midjourney.com/
[4] WaveNet:A generative model for raw Audio. https://deepmind.google/discover/blog/wavenet-a-generative-model-for-raw-audio/
[5] ChatGPT主页. https://www.chatgpt.com/
[6] 伊辛模型. https://en.wikipedia.org/wiki/Ising_model
[7] Hopfield J J. Proceedings of the National Academy of Sciences,1982,79:2554
[8] Hebb学习规则. https://en.wikipedia.org/wiki/Hebbian_theory
[9] Amit D J,Gutfreund H,Sompolinsky H. Physical Review A,1985,32(2):1007
[10] Gutfreund H,Toulouse G. The Physics of Neural Networks.In:Spin Glasses and Biology. 1992 .pp.7—59
[11] Rosenblatt F. Proceedings of the IRE,1960,48(3):301
[12] Minsky M,Papert S A.Perceptrons: An Introduction to Computational Geometry.The MIT Press,2017
[13] Sherrington D,Kirkpatrick S. Phys. Rev. Lett.,1975,35(26):1792
[14] Parisi G. Phys. Rev. Lett.,1979,43(23):1754
[15] Gardner E,Derrida B. Journal of Physics A:Mathematical and General,1988,21(1):271
[16] Krauth W,Mézard M. Journal de Physique,1989,50(20):3057
[17] Cortes C. Machine Learning,1995,20:273
[18] Nguyen H C,Zecchina R,Berg J. Advances in Physics,2017,66(3):197
[19] Ackley D H,Hinton G E,Sejnowski T J. Cognitive Science,1985,9(1):147
[20] Hinton G E. Momentum,2010,9(1):926
[21] Hinton G E,Salakhutdinov R R. Science,2006,313(5786):504
[22] Neal R M. Statistics and Computing,2001,11:125
[24] Krizhevsky A,Sutskever I,Hinton G E. lmagenet cassification with deep convolutional neual networks. In:Advances in Neural Information Processing Systems 25,2012
[25] Goodfellow I,Pouget-Abadie J,Mirza M et al. Generative adversarial nets. In:Advances in Neural Information Processing Systems 27,2014
[27] Vaswani A et al. Attention is all you need. In:Advances in Neural Information Processing Systems 30,2017
(参考文献可上下滑动查看)