作者 | 张群英、芮祥麟
来源 | 黄大年茶思屋、蓝血研究(lanxueyanjiu)
投稿 | lanxueziben(微信)
全球合伙人招募 | lanxueziben(微信)
华为法国拉格朗日数学与计算研究中心,和曾是电信和信息技术领域的创新引擎——贝尔实验室历史上在数学领域所做的工作一样,专注于联接基础理论的深层探索和先进工程技术实现。尽管两者在研究方法和应用转化上存在差异,但它们都体现了从理论到实践的不懈追求。
茶思屋科技网站总编张群英在巴黎对法国拉格朗日数学与计算中心主任芮祥麟(Dr. Jui Shangling)博士进行了专访,探讨数学基础理论研究与工业实现之间的联系,探索如何将数学之美转化为推动世界前进的动力。
芮祥麟(Dr. Shang-Ling Jui)博士,法国拉格朗日数学与计算中心主任,麒麟芯片与解决方案AI 首席科学家,华为CBG软件工程部人工智能首席科学家,曾被上海市人民政府颁发了“白玉兰纪念奖”。
拉格朗日数学与计算中心:成立于2020年10月9日,在法国巴黎揭牌,是继芯片、数学、家庭终端、美学以及传感器和软件研发等领域的5个研发中心之后,华为在法国设立的第6个研发中心,这也是华为在法国设立的第二个数学计算中心。该中心以开放机制,吸引顶尖学者参与研究并培养青年研究员,致力于数据科学与计算科学相关的数学研究,构建面向全球的开放数学研究平台,为未来的信息化世界做出理论创新与突破。
划重点:
1、欧洲尤其法国对数学基础理论的积累,理论数学事实上有300多年的大师传承积累,他们从路易十四开始就非常重视科学家的资助培养。相比之下,中国人传统上比较重视应用,到今天为止也是比较重视应用。我觉得应用和理论必须是相辅相成的。就是说,理论好了之后才可以激发出比较好的应用。
2、欧洲实际问题比较少,因为他们已经进入后工业化的时代,而中国产业的规模都是世界级的,里面的应用问题也肯定是世界级的。双方应该相互借鉴。我们在投入解决实际问题的同时,还是要留有一部分力量去做理论方面的突破。
3、整个欧洲,以德国以及法国为代表,他们的学者往往独立性比较强,他们往往说:我的头上就是一片青天,意思是说,只有上帝管得了我。就是说,整个学术研究往哪个方向走,他自己以及他的实验室就决定了。
4、法国学生很喜欢辩论,他们老师也会亲自参与这辩论的过程,但是老师不会用自己的权威去主导这项辩论,大家互相质疑对方。中国就比较尊重权威。很多真理是在辩论当中得到的。
5、华为为什么要投资做基础数学研究?华为要解决的问题,从芯片开始,一直到最上层的应用,事实上碰到的数学问题,如果拆解开来综合来看的话,跟一个大学的比如数学院系、数学研究所的整个研究课程的提供是不太一样的,华为需要一个特殊的数学门类。这大约是华为成为全球极少数有长期投入去给数学家充分空间做理论探索的企业的原因。
更多干货,请看芮祥麟博士的谈话实录:
Q:拉格朗日数学与计算研究中心成立以来,在数学和计算研究领域的总进展
芮祥麟:拉格朗日数学与计算研究中心成立于2020年。一开始的三年,我们专注理论数学的研究,主要体现在低维拓扑、代数几何,还有偏微分方程方面。这当然也跟我们所能够争取来的菲尔兹奖得主以及其他数学大师是有关系的。
具体而言,我们有2002年菲尔兹奖得主拉福格先生,他的专长是数论;然后还有2018年菲尔兹奖得主阿莱西奥·菲加利,他研究最优传输理论,是跟偏微分方程有关的;另外还有1998年菲尔兹奖得主马克西姆·孔采维奇,他研究范畴论,是抽象代数里面的一个门派。
我们是希望前三年基本上能够在法国的数学界站稳脚跟,然后在选定的几个方向,能够争取好的大师加入。因为只有好的大师加入,才能够把整个研究氛围给带起来,并带领更多好的学生,优秀的数学人才。
Q:如何理解一个企业进行数学基础理论的投资研究?怎样平衡好纯粹的数学理论研究和工业界的直接实现的问题
芮祥麟:华为一直相信,华为可能需要一个特殊的数学门类。因为华为碰到的数学问题,归纳起来大概是在信息以及通信的领域,当然也会牵扯到其他方面的问题。但是华为需要解决的问题,如果把它抽象化的话,实际上是一个比较综合的东西。
具体而言,可能包括优化论、信息论、一些基础几何方面的东西,还有代数,当然分析方面的东西肯定是不可少。所以华为相信,华为要解决的问题,从芯片开始,一直到最上层的应用,事实上碰到的数学问题,如果拆解开来综合来看的话,跟一个大学的比如数学院系、数学研究所的整个研究课程的提供是不太一样的。所以,我相信这是华为想自己投资去做一个数学研究所的初衷之一吧。
当然,企业出面去做数学和在高校里面是不一样的。华为是我看到的全球唯一一个有长期投入,去给数学家充分的空间做理论方面探索的企业。当然,我们在理论方面的选择也是稍微有目的性的,因为数学是个巨大的殿堂,细分起来的话,可以分好几千类。粗分的话,可能就是集合论、逻辑、几何、代数、分析,然后一直在往上长,是一棵大树,它的树根就是这些东西。
如果我们从古希腊开始一路追溯下来的话,比如,从集合论开始到逻辑然后再往上长,就是分析、几何、代数,然后再往上长,会长出一堆东西。它是棵巨大的树,可能目前有六千多片叶子,或是分支。华为当然没办法去关注每一个数学领域,这是不可能的事情。所以我们挑选的数学领域是至少在中期以及长期会对我们的业务产生影响的。这是我们在挑选研究数学的时候会注意到的方向。
企业的话,虽然数学研究是一种比较长期的投入,短则三年,长则五年、八年都有可能,但总是希望最后的结果能够去解决实际问题,就是解决问题的方法。人家都说数学是最纯真的东西。数学,从我个人有限的经验来看,是最赤裸裸的东西,它直接告诉你一个事情、一个现象背后的本质是什么。
我们希望能够通过一些数学上的研究,彻底搞清楚一个问题的本质是什么。然后通过数学方面的一些变化,比如说是一些空间的变换、函数的变换,能够把一个看似复杂的问题分解,把它变换成为另一类问题,而这一类的问题事实上是更容易解决的。也就是说,比如我们可以在一个复杂的微分方程的问题中引入几何的观点,然后用几何的观点,转化成一个更直观的问题,这个更直观的问题可能更有益于工程师直接想到一些更好的解法。所以我们是希望数学能够扮演这一个桥梁的作用。
当然,企业投入数学,事实上跟企业的文化也很有关系。所以,我认为拉格朗日的目的就是扮演一个桥梁。因为在法国,理论数学事实上有300多年的大师的传承积累,他们从路易十四开始就非常重视科学家的资助培养。当然,当时赫赫有名的数学家大部分都是富二代。他们没有生存的问题,就有空去想这些抽象的问题。很多有名的,我就不一一列举了。企业的话,可能最终还是要回到应用本身,以及从这个应用能够发展出来技术。当然这整个转化的过程,我相信拉格朗日是一个很好的桥梁。
我觉得拉格朗日的人员至少要有两方面的背景:一方面在数学理论要有一定的深度,至少能够进行比较有深度的讨论,能够跟法国的数学界或是跟欧洲其他国家,比如跟德国、意大利,或其他国家的数学家们,做一定深度的交流,把他们的思维给牵引出来。另一方面,我们也能够很有信心地回到中国总部,跟各个business unit讨论问题,帮助他们做数学方面的抽象。所以说我相信我们是扮演一个重要的桥梁的角色。
Q:从基础理论研究到工程实践之间,有没有一个更快捷、更高效、更有效的方法
芮祥麟:这是个好问题,实际上不容易回答。我来举个例子,就好像拉福格,他的专长是拓扑斯。拓扑斯可以算是代数几何里面,再继续抽象下去,抽象到范畴论,范畴论再抽象到整个拓扑斯的理论,它是几何与代数,还有逻辑的结合。当然他们是沉浸在自己的世界里面。
扯远一点的话,在19世纪到20世纪初期,数学跟物理是同步前进的,双方可以互相借鉴。你看到一堆数学公式,可以马上联想到它对应的物理现象是什么,反之亦然。然后大家互相启发,就好像爱因斯坦的狭义相对论,事实上是跟明可夫斯基的光锥模型是有关的。它里面的数学经过很多大师的铺垫,单单靠爱因斯坦一个人是想不出来这些东西。
特别到二战以后,整个数学是极度的抽象化,比如说极度的代数化、符号化。然后和物理也渐渐分开了。但很可喜的是,到了现在这个时候,我们看到物理和数学好像又渐渐走在一起的趋势。我认为是应该是互相借鉴的。
然后,回到你的问题,比如说拉福格的东西。现在AI红红火火,但是AI,比如说大语言模型,很多地方还是不可解释的。它基本上还是一个黑盒的过程。只是说我们在不断地用一些工程方面的经验,堆人上去,去把这个问题给解决掉。
但是,从拉福格的角度,他认为AI的可解释性可以做数学的抽象,而这个抽象绝不是目前整个自然语言处理的这种很初级的语义抽象的水平,而是基本上要做到做到二阶的抽象。这样就牵扯到整个结构派数学,以及他们所发展的理论。当然有些人信,有些人不信,我个人是相信的,我相信最后可以找到一个非常简洁而且全面的AI语义空间。
用这个AI语义空间,我们可以描述AI模型,以及准确地描述整个数据世界,不论是哪种模态的数据。但在这当中,他的这些数学理论基本上是代数几何发展下的。代数几何顾名思义就是代数加上几何。我们要不断地去帮助他,比如建立整个软件站、整个底层的硬件站,去帮他把他的这整套数学理论引入整个计算架构。因为最后要发挥作用,变成一个看得见摸得着的东西,必须经过计算机理论的转换,把它转换成可计算的东西。所以,我们正在组织AI的专家、计算机科学的专家和他一起合作,把这个东西转换过来。当然这是个漫长的转换过程了。
另外还有一些,比如说比较短平快的东西,像神经网络,目前为止可解释性还是比较差的,特别到大型语言模型的里面,真正的可解释性还是非常不完全的。但是如果我们能够引入一些几何,特别是非欧几何还有拓扑的概念的话,把不变性、等变性以及对称性这些几何的东西嵌入到整个神经网络的处理过程当中,我们相信可以节省大量的训练数据。
因为说老实话,人认识这个世界是靠拓扑、靠几何的。比如我们看到一个杯子,我们看它的轮廓以及投影,就可以估计它的形状以及它所处的方向。如果从像素级别,靠卷积或靠其他方式来处理的话,说老实话这是有悖于自然原理的,像素这种东西在自然世界是不存在的。我们人类认识这个世界是靠拓扑、靠几何,至少我是这样认为。
如果我们能够把更多数学的东西植入到比如神经网络或大型语言模型里面,我觉得我们可以事半功倍,而且能够更看清楚一个事情的本质。比如,我们碰到一个复杂的几何问题,或甚至是微积分的问题,如果我们能够把它变换成为一个几何问题,因为几何对绝大部分来说是比较看得见摸得着的东西,比较容易想象该如何去解决它。所以说可以通过问题的变换,比如说把代数型的问题变成几何问题,或反之亦然。这往往会很快地解决问题。
举个例子,刚开始的时候,在两百多年前大家想解决的是如何计算椭圆长度,结果就产生了椭圆积分的问题。结果有一堆很聪明的数学家跑进去,然后发觉这是一个椭圆函数的问题。椭圆函数是类似三角函数,但是还是有不同的特性。然后由椭圆函数就发展出椭圆曲线,后来就基于椭圆曲线解决了费马大定理,费马大定理是纯粹的代数问题。可见这些数学彼此之间是相通的。
而且你要有个开放的心态,看看能不能把某一个领域你所得到的知识,转换到另外一个领域,这就是数学的乐趣。我也是希望,比如说,在理论数学领域以及实际工程领域中间,有一个比较好的有兴趣的一个转换过程。
Q:拉格朗日研究中心和贝尔实验室都专注于基础理论研究,但两者在研究领域和产品实现方面存在哪些异同
芮祥麟:我觉得我们目标的设定都差不多的,都是在做基础数学理论以及计算领域的研究。我们目标也是希望能够解决实际的问题。当然我觉得最大差异是华为才刚开始,现在是第四年,然后贝尔已经有很长很长的历史了。所以他们在学界的人脉、对于产业问题的理解,还有他们组织运作的经验,肯定要比我们丰富很多。
我们才三年,有些事情都是要从头开始的。尤其是,也不必讳言,过去三年整个国际的环境事实上并不是太友善。当然在欧洲还算好,我们还是要花很多时间去跟学界做沟通,能够打消他们的疑虑,然后也秀出我们非常真诚的一面,也就是说我们真的是希望能够建立一个好的学术讨论的环境,能够去找到好的人,找到好的学生,把问题给研究清楚。然后希望能够把这个研究的结果,介绍到国内。相反的也会想办法,让国内业务部门的专家能够理解这些数学家们,到底能够为他们做些什么事情,所以我们还是有很多工作要做的。
Q:有没有一个体系化的方法来提升数学的能力
芮祥麟:这个我经常听到,数学确实是这样,就是要么懂要么不懂。不懂的话就是天书,懂的话会一路的栽进去,就拔不出来了。肯定有体系化方法。
以我为例,我只是学应用数学的,我觉得我跟那些拿菲尔兹奖的是有一段距离的。但是,首先你要有颗爱数学的心,你要热爱数学。你碰到一个数学问题,假设说是一个微分拓扑的问题,你会感到兴奋。可能就是因为不懂而感到兴奋,我是说我自己的心路历程。
一开始拿到一篇比如说有关微分拓扑的论文时,你不懂,可能最多第一遍看到10%。那就去网上搜,至少能够达到知乎的水平吧,可能下一遍看就看懂30%了。然后可能要再更深入,就到“油管”里面去搜搜一些大师课,比如说斯坦福大师课、伯克利大师课,或普林斯顿大师课。看完之后,仔细想过之后,可能再看一遍,一下就了解50%–60%,然后你真的是想继续钻研下去,你肯定你就知道那些上课好的大师的名字。你想办法联络到他,然后跟他单独讨论,我经常干这种事。跟他单独讨论,你会得到很多启发。最后一遍看这篇论文的时候,你大概就可以懂得80%–90%。剩下就是一些细节,看你决定是否要把这些细节抠出来,大概是这样一种心路历程。
所以,我的意思是说,就算你不是顶尖聪明的人物,还是有一套方法论可以帮助你把数学学好的。这毫无疑问,也就是说要由浅入深,而且要保持一颗热爱数学的心。说到中国跟法国的话,中国人印象中比较实际。你看,中国古代有名的数学文章,比如说《九章》或《洛书》,都强调算的一面,就是说想办法把这东西给算出来。至于整个计算过程背后的原理,中国人往往是不太关心的,这也是中国人实际的一面。
但是你看在欧洲,特别是欧洲大陆,从一开始莱布尼茨,再到整个伯努利家族。伯努利家族他们是天生基因很好,出了好几位数学大师,彼此都有亲戚关系的。莱布尼茨、伯努利,然后比如再到欧拉、拉格朗日、拉普拉斯、然后再到高斯,高斯之后还有比如阿贝尔,然后再到一百年前鼎鼎有名的希尔伯特,希尔伯特之后又有,我随便讲,比如冯诺依曼,等于一路传承下来。你可以看到,他们对于数学基础理论的积累是将近三百年的沉淀,这一点我觉得中国人是比较欠缺的。
中国人传统上比较重视应用,到今天为止也是比较重视应用。我觉得应用和理论必须是相辅相成的。就是说,理论好了之后才可以激发出比较好的应用。因为应用往往是一门综合学科,即使在数学里面,你要用应用数学解决问题,不是一个单门的理论数学可以解决的。你可能要解决组合优化的问题,可能要解决里面一些几何问题、拓扑问题,甚至要把它用线性代数或者用张量分解。就是说,要解决一个实际的问题,你要用的数学方法是非常多的。所以,回应到你讲的,这事实上是一个系统工程,数学的系统工程。
我们中国人可能过于重视实际的一面。比如碰到一个函数,不想想为什么要这样形成这个函数,就直接调用它的接口就行了。但有时候,调用一个标准函数库的接口,可以达到80%的精度。但是如果说你真正要追求极致,比如说达到95%甚至99%的精度,你可能要把这个函数给打开,去看看它这个原代码到底怎么写的,有哪些可以改进的地方。那如何改进呢?你必须要理解这个函数本身的原理。不理解原理,如何能够去改进它的算法呢?
我很多经验就是,有时候为了追求极致,追求我所要的精度,可能必须要改写函数,或了解函数的数学理论基础,由此能够做更好的改进。我是说可能双方都要借鉴吧。欧洲事实上是实际问题比较少,因为说老实话,他们已经进入后工业化的时代。中国人比如说我们,我们产业的规模都世界级的,里面的应用问题也肯定是世界级的,但是我觉得在投入解决实际问题的同时,还是要留有一部分力量去做理论方面的突破。
Q:华为公司是不是有一个成体系的方法,一个系统来保证从基础理论到最终的工程实践工作能够畅通
芮祥麟:我觉得可以加强交流,比如可以从黄大年开始,黄大年可以提供一系列的数学的课程,比如跟咱们华为相关的一些,比如一些跟AI相关的数学,比如概率、随机过程、微积分、离散数学、计算数学,这些都是跟AI相关的数学。然后,或者说跟其他方面,跟研究物理,跟材料化学,都需要不同的数学。
我们能够提供一系列课程,找好的大师或是一些有名的数学家,能够提供一系列课程。比如说单单讲一个,比如最优传输,可能可以提供十几到二十门课,从最简单的方程式开始,慢慢一步步地把这个问题给解剖开来,往深的方向走,就看你的兴趣,好像学武功一样,你愿意学到第几集吧。你可能只是看头一两集,或说你有兴趣,你可以把它看到第二十集最后一集,这些都有可能。
我觉得要有一个好的提供知识的平台。到目前为止,我们可能最后都是得看油管,看油管可能你还没达到最好的程度,你可能要亲自去请教大师。我觉得需要形成一个这样的机制。当然国内可能是我们几千年的科考,科举制度造成的一个后果吧,就是中国人比较重视考试,重视刷题。最优秀的数学院校的学生也是刷了几千道题过来的,这是稍微有点问题的。
我们可以看到这里的学生,至少我接触过的法国的学生,他们喜欢讨论,他们喜欢反复地去论证,去批评对方。你可以看到最喜欢讨论的是法国的学生,那中国人就是比较属于单打独斗,优秀的中国学生都是一个人在那刷题。可能大家的想法比较不一样,当然我没有反对做题,数学做题是不断地验证你的逻辑思路的一个方法,一个很好的方法。但是你不能为了刷题而刷题,你必须要探索这个东西,它背后的逻辑是什么,以及这个逻辑到底有没有毛病,或者说满足这个逻辑的整个数学边界是在哪里,在哪个边界问题之内,这个逻辑是成立。就是这些最基本的问题。
事实上过去300年来提出来,都是欧洲这边的数学大师,比如说微积分的三次危机,或说数学的三大危机。若说你纯粹为了功名,为了考试,你是不会提这些问题的,拿公式来算就对了。但欧洲可能有些聪明的数学家,他们就会想这里面最基本的问题是在哪里。有些问题甚至会要命的,会把整个数学给推翻掉。所以说就是有名的,比如微积分三次危机结果都跑出来,一些特别聪明的大师把这些危机给解决了,比如柯西、阿贝尔。所以我希望双方的数学文化能够有比较好的融合。
Q:法国和中国的数学界在做研究的时候,有哪些一样和不一样的地方?他们有什么样的优点、优势值得我们去学习
芮祥麟:中国比较重视计算,就是重视这个算出来的结果,而不太去探究整个计算的过程里面的背后的逻辑到底是怎么样,以及这逻辑每一步逻辑的衔接是否有漏洞。比如说我们的九章,我们的洛书,或说其他的,大概都是比较偏重算术的部分。
然后法国的话,它有悠久的历史,它成立科学院也好几百年了,所以事实上,一路上都是大师,传统上比较重视理论数学,他们的理论数学一直几百年来都很发达。他们非常重视一个数学推导过程里面的逻辑是否严谨。就比如说是微积分曾经出现的三大危机,以及整个数学界的三大危机,都是有数学家跳出来去认真地检验整个推导过程是否有问题。然后根据问题,他们会发展出新的理论,新的突破。这是中法之间我觉得数学方面差别最大的地方。
当然,这跟整个学术氛围也有关系,我们看整个欧洲好了,以德国以及法国为代表,他们的学者往往独立性比较强,他们往往说:我的头上就是一片青天,意思是说,只有上帝管得了我。意思就是说,整个学术研究往哪个方向走,他自己以及他的实验室就决定了。事实上学校基本上是完全干涉不了,更别说教育部以及其他政府部门。
他们分配经费的过程也比较透明,也就是说你可以申请,然后会有一个非常透明的委员会去决定,或者他们也会从工业界拿钱。大部分工业界也很乐意提供资金,但是很多学者,特别是法国在数学界的学者,他们非常厌恶工业界给他们规定要对齐哪些目标,要有哪些交付件,以及交付件要达到哪些指标,如果跟他们提出这些,这谈话肯定就没法走下去了。
中国的话可能因为我们几千年科举制度变成比较重视权威,像我在加入华为那么多年,我大部分的团队成员都有很好的数学背景,但是他们都是比较尊重权威。我甚至经常觉得我自己讲的话是有问题的,逻辑推敲上是有问题的,比如说我讲一个数学的,我对它的解释,但是很少人会跳出来反驳。
你看我们这整个研究经费的分配,也是一层层下来,比如经过院士。我没有反对院士参与这个过程。我是说我们国家应该再增加一条渠道,能够让年轻优秀的学者能够直接得到国家经费,或在跟工业界合作的时候,我希望我们的产业界能够不要太短视,能够给学者一片空间。
法国人是比较喜欢理论数学,然后比较喜欢讨论、辩证,他们对于实际的应用有时候不是那么关心,或者说他们的产业界没有需要到这种程度。
当然我经常注意到,特别是我来法国以后,看到法国学生很喜欢辩论,他们老师也会亲自参与这辩论的过程,但是老师不会用自己的权威去主导这项辩论。大家互相质疑对方。然后一步一步看看这每一步的逻辑是否严谨,可以衔接的。然后有问题的话就是讨论。所以说如果说你看到哪个桌上一群人在那讨论,80%的可能都是法国人。法国人就喜欢干这些事情。所以说我觉得很多真理,是在辩论当中是得到。
当然有时候,我也是开玩笑,我会觉得比较烦,因为我听一听,听到一半我就知道结果应该是怎么样,我说那你还要辩论下去干嘛呢?他们一杯咖啡或一杯红酒,就可以辩论一下午。这也是挺有趣的地方。
而中国比较可惜,中国数学学院最好的人往往都到金融界去了。从学术程度鄙视链是理论数学瞧不起应用数学,应用数学瞧不起金融数学,但是从收入来说正好是倒过来的。
Q:拉格朗日中心聚焦在两大领域:数学和计算。为什么会把这两个领域放在一起
芮祥麟:因为计算一直是我们公司一直要解决的问题,尤其我们在供应受限的情况下,如何在比较少的算力以及比较差的能耗之下,能够去能够跟这些大厂,国外大厂拼刺刀,计算肯定是要解决的问题,而且这些问题只有咱们自己才能够解决,因为别的公司可以比如靠纳米的进步,去很自然去把问题给解决掉,或者说它没有感到解决这些计算问题的需要,因为它很自然进步到3纳米、2纳米,很多问题就遮盖掉。
那我们是没办法,我们必须要自己解决计算问题,比如说一个好的计算架构。当然你可以用数学方法去一些组合优化的方式去解决整个或者说计算出比较好的计算架构,以及整个算法,当然包括大颗粒度算法以及算子,这些都是数学方面可以帮忙改进的地方。
就比如像那个大型语言模型,它里面最基础的模块是Transformer。Transformer实际上基本90%以上都是矩阵运算,当然其中也穿插了非线性运算,比如Softmax。这些矩阵运算我们如何给它加速?当然传统上面有剪枝、量化,然后还有比如知识蒸馏,还有其他的一些方法。
但如果我们能够加进很多数学的东西,就比如说利用好的矩阵分解、张量分解,利用比较好的核函数的设计,以及利用比较好的位置编码的方式,我相信是可以更有效地去加速整个大型语言模型的计算。这只是其中一个例子。
▼▼▼