1.面壁智能创始人刘知远表示,自然语言处理的本质是消除语言不确定性,让机器精确无误地理解人类语言。
2.他认为,未来大模型会变得越来越小,如同个人PC的普及过程,每个人都将拥有属于自己的大模型。
3.然而,刘知远指出,大模型在端侧运行仍面临挑战,如算力约束、能耗和内存限制。
4.为此,他提出Densing Law(稠密定律),旨在用更低的成本实现更强的能力,让每个人都能用得起大模型。
5.刘知远认为,未来人工智能可能更多地被视为工具,人类应专注于其他方面,如创新、研究和协作。
以上内容由腾讯混元大模型生成,仅供参考
清华大学计算机系副教授刘知远小学时写应用题,老会卡壳。他总会过度思考,从一个题目里读出多重含义。到了高中,写英语阅读理解时,这种感受更强烈了。
刘知远从未怀疑过出题人,反而怀疑是不是自己太笨了,“理解不了题目”。多年后深入学习语言哲学之后,他才渐渐意识到这其实是种天赋,“我就比较善于抓住语言里面那个不确定的地方”。
自然语言处理的本质就是消除这种不确定,让机器能够精确无误地理解人类的语言。刘知远前半生正是与这种不确定性缠斗的二十年。
特别是过去两年,搭上ChatGPT的便车,自然语言处理坐上了时光机,“从2023年到2024年所经历的这些新事情,比过去20年经历的总和还要多得多”。
回望中国大模型史,年届四十的刘知远是个绕不过去的人物。他参与缔造中国第一个大模型,又躬身参与了这一轮大模型创业。2022年8月,在ChatGPT发布的三个月前,刘知远发起成立了一家大模型公司——面壁智能。
这家公司最为出圈的一件事是,2023年6月3日,斯坦福大学一个学生团队发布的一个模型被发现是抄袭了面壁智能的模型。
面壁智能的办公室位于北京中关村东路1号院6号楼3 层,办公室的白墙上随处可见那句《三体》的经典台词,“这是面壁计划的一部分”。
GPT前传
1984年,刘知远出生在山东泰安新泰市一个普通工薪家庭,小学偶尔逃课去游戏厅玩,家里也没期待过他能上清华。他父亲在邮电局上班,还建议放弃初中直接读中专,方便以后接他的班。
没想到十几年后,刘知远以山东省前三十名的成绩,如愿进入清华大学。
当时正是互联网泡沫破灭之时,最热门的方向是建筑和生物医学,计算机专业并不是高分专业。刘知远报了建筑、生物工程和电子系,招生组反馈这些专业的名额已经被分数更高的同学占了,无奈选了计算机专业,“算是一个机缘巧合吧”。
读博时也是如此,报考生物信息学方向也是招满了,他阴差阳错进入了自然语言实验室,“我觉得非常幸运,因为五年之后生物信息学的导师自己都放弃了这个方向。”自然语言处理正好开始了高歌猛进的二十年。
刘知远清楚记得,读博期间,实验室有个大师兄做文本分类,“给你一篇文章,看能不能把它分到相关的类别里面,比如这篇新闻是社会新闻,还是国际新闻、军事新闻,或是别的新闻?”他的博士论文就是关键词提取,“通过统计的方法识别出文档到底哪个词,能代表文章主题的关键词。”
2012年成为一个分水岭,深度学习在大洋彼岸叩响了发令枪。当年10月,Geoffrey Hinton和他的两名学生——Alex Krizhevskyr,以及ChatGPT 的灵魂人物 Ilya Sutskeve,获得ImageNet图像识别比赛的冠军,并且发表论文介绍了第一个深度卷积神经网络模型AlexNet。ImageNet是斯坦福大学教授李飞飞创办的人工智能领域一个重要赛事,通过对机器算法识别图像,从而促进最先进算法的开发。
在处理图像识别、语音识别方面,深度学习的能力得到了广泛认可。在老师孙茂松的带领下,刘知远花了两个月寻找答案。可自然语言处理方向的大多数人的意见是,深度学习不能帮助自然语言处理。
最终刘知远得出一个结论:基于统计学习用符号去表示语言知识的这种传统路线,已经没有太多突破的可能,深度学习是个非常值得探索的新技术路线。正是基于这样的判断,“我们实验室应该是国内最早拥抱深度学习的团队”。
2017年,出现了Transformer的结构,2018年,出现了BERT这样的预训练模型。预训练大模型出现之前,自然语言处理都需要服务于某个特定目标。比如机器翻译,就要收集大量中英文的句子,更像是头疼医头、脚疼医脚。人类并不是生来就可以被培养成一个翻译家,而是要先成为具备通识能力的正常人。所谓的预训练模型,就是把人培养成具有通识能力的正常人的过程。
从深度学习到预训练模型,自然语言处理势如破竹,直到2022年11月,OpenAI发布了大语言模型ChatGPT。
第一个大模型
刘知远感受到来自大模型的震撼是在2020年5月GPT-3.0发布,“远超后来ChatGPT带来的震撼”。此前,刘知远还沾沾自喜于对BERT预训练模型,提出了一些原创改进的工作,“好像能够望其项背,甚至齐头并进”。
GPT-3.0让他瞬间慌了神,“我们算是国内最一线的团队,最多用两三张卡在一台机器上训一个模型,甚至觉得这种单机多卡训练是一个很大的挑战,让我震撼的是OpenAI 用了一万张卡训出了GPT-3.0”。
羞于找领导的刘知远,这次敲开了时任智源研究院理事长张宏江的门,“如果不尽快赶上的话,可能会被甩得很远”。当时学校不可能短时间内购买到大量的芯片,幸好他当时在智源研究院做青年科学家,了解到智源研究院正在鼓励最前沿的探索。
得益于智源研究院灵活的机制,2022年7月汇报情况,9月10台A100芯片已经到位, “大概花了几百万元”。当时的情况,国内完全没有经验,高性能计算专家陈文光团队帮助搭建起整个训练框架,“他们兴奋地装了一晚上,凌晨给我发了个消息说,装好了”。
经过20天左右训练,团队在2020年11月得到了一个26亿参数的大模型,“尽管是个非常小的预训练模型,可已经充分验证了GPT的技术路线是可行的”。
之后智源研究院训出了中国第一个大模型——悟道 1.0,这也成为中国大模型的“黄埔军校”。智谱清言、月之暗面、面壁以及零一万物的核心技术骨干,都与当时智源研究院的悟道项目渊源颇深。
“20年前,会有专家信誓旦旦告诉我,深度学习不可能在自然语言处理里面存活下来,10年前,很多人会觉得,你这个预训练模型这么耗费算力肯定不行,不可往下走。”哪怕是到了2022 年,大模型在智源已经形成共识,但从全国来讲仍然是非共识。
创办面壁智能,押宝端侧大模型,刘知远正是出于对AGI(通用人工智能)的信仰,他说,“我并不知道5年后、10年后会是什么样子,但是我非常坚定相信,未来这一波AGI浪潮,一定是远远超越2000年那次互联网的浪潮,远远超越2010年那次由个性化推荐所产生的一次浪潮。这个浪潮要大得多,它将会深远影响我们每个人的生活,每个人的工作,每个人的学习方式,甚至我们存在于这个世界上的方式。”
大模型浪潮来临之前,刘知远身上最知名的标签是“知乎大V”,共有 752 个回答,不少是抖机灵的神回复,他打趣说,“那是我年轻时写的那些回答,现在可能学生们都会比较怕我”。
2024年12月22日,在面壁智能的办公室里,刘知远向南方周末记者回顾了过去二十年的变革,对人工智能的未来展开了一次深入的对话。
ChatGPT的突破
南方周末:什么是自然语言处理?
刘知远:简单地说,就是用计算机来处理、理解以及运用人类语言,是人工智能的一个分支。没有语言,人类的思维就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界。也就是说,只有当计算机具备了处理自然语言的能力,机器才算实现了真正的智能。
南方周末:自然语言处理有哪些研究方法?
刘知远:人们主要通过两种思路来进行自然语言处理,一种是基于规则的理性主义,另外一种是基于统计的经验主义。
理性主义方法认为,人类语言主要是由语言规则来产生和描述的,只要能够用适当的形式将人类语言规则表示出来,就能够理解人类语言,并实现语言之间的翻译等各种自然语言处理任务。
而经验主义方法则认为,从语言数据中获取语言统计知识,有效建立语言的统计模型。因此只要有足够多的用于统计的语言数据,就能够理解人类语言。
南方周末:机器的语言和人的语言之间的鸿沟到底是什么?
刘知远:上个世纪中叶,著名语言学家诺姆·乔姆斯基提出了现代句法理论,设想通过形式化的句法理论来分析人类语言,比如句子(S)等于名词短语(NP)加动词短语(VP),即主谓结构。
当时的学者认为,人类语言大部分情况下应该符合这种句法理论。但真正尝试用一套句法,涵盖所有的人类语言,就会发现这个句法体系会变得极其复杂,需要无数个例外。语言里面有所谓的一词多义的情况,又会变成是一个很复杂的问题。早期的时候,人工智能学者也好,语言学者也好,都低估了计算机理解人类语言的难度。
ChatGPT为什么伟大?因为它是人类历史上真正实现了用一个模型去理解和生成人类语言,这在历史上是从来没实现过的。
南方周末:ChatGPT是人类语言的核心公式,或者一个万能公式?
刘知远:可以这么说,只是这个公式非常复杂,人类难以完全理解。ChatGPT既包含了语言的句法知识,也包含了语义知识,能够理解和回应我们提出的各种问题。不仅如此,它还超越了单纯的语义理解,对世界有广泛认知,已经超出了语言本身的范畴。
南方周末:从脉络上来看,这一轮大模型是经验主义的一次突破?
刘知远:我认为还是属于经验主义,大模型这些知识来源于后天,是通过数据学习来的。
南方周末:理性主义的式微,是否只是暂时的?
刘知远:我认为理性主义一定有它自己的未来,可能不再是历史上已有的形态,而是一个全新的形态。人类的知识难道只是经验主义吗?显然不是。乔姆斯基提过刺激贫乏理论,就是人类一出生,到真正掌握语言,所接受到的外部信号是非常少量的。
这个刺激和人类大脑的参数相比是非常贫乏的,为什么在这么贫乏的刺激之下,可以掌握这样一个复杂的知识体系?这个假说的猜想就是,大脑不是一个白板,而是预制了一套参数,外部有限的刺激激活了这套参数。
这套参数不和某个特定语言相关,外部刺激是英文,就会激活成英文,外部刺激是中文,就会激活成中文。这套知识应该是经过几百万年进化刻在人类的基因里面。
但是从实用主义的角度来讲,人类的智能可能是这两者兼具,既要从后天学习,也会通过遗传先天储备一些知识。
大模型可能是经验主义的典范,但难道只有经验主义在发挥作用吗?也有人类作为上帝之手设计这个神经网络的架构。这个学习训练的方法也是人来设计的。我认为大模型无疑是经验主义的典范,但不是只有经验主义发挥了作用。
不是OpenAI做什么都是对的
南方周末:现在很多人认为,人类已经找到了通往了AGI(通用人工智能)的道路,似乎和上世纪五十年代有些类似。你认可这个观点吗?
刘知远:现在似乎OpenAI做什么,大家就会认为AGI是什么,我认为这件事情很危险。OpenAI的观点过去是非共识,现在变成了共识,但是面向未来,我认为仍然需要一些非共识的东西。
南方周末:OpenAI提出了Scaling Law(规模效应),但这一理论的科学性还没有得到证实。过去一年,Scaling Law是否已经到了尽头?
刘知远:不断提供更多的数据,有足够多的这种算力支持,就可以在一个模型里面不断积累更多的知识,从而产生所谓的“智能涌现”。模型越大,装的知识越多,能力越强,这就是所谓的Scaling Law。
现在显然遇到瓶颈了,或者说撞墙了。原因是数据似乎已经用完了,算力也不足以支持这个模型像过去那样膨胀几百倍甚至几千倍。
算力问题可能更关键,如果变成几万亿、几十万亿、几百万亿,不只是训练的成本极高,推理一次成本也极高,这是几十亿人可以去承担的成本吗?我觉得显然不是。
南方周末:那对大模型未来如何提高能力上限,你有什么样的方案?
刘知远:我们提了一个全新的设想:Densing Law(稠密定律),我们认为绝对不是简单追求把规模做得越来越大,而是能用更低的成本实现更强的能力。
一个非常直观的类比就是摩尔定律。过去80年,信息革命非常重要的一个推动力就是算力的廉价化、普惠化。对于大模型来讲,也应该做类似的事情,把更多的知识放在一个更小参数的模型里面去,让这个模型能以更低的成本去训练,更低的成本去使用,让每个人都能用得起、用得上。
南方周末:OpenAI的o1或者o3,似乎不是依照Scaling Law越训越大,而是越训越深,对数据的深度进行再开发?
刘知远:我认为Densing Law和o1或者o3是在沿着不同的方向在发展。o1或者o3让模型变得更强,思考能力变得更深,其实就是让模型更大,容纳的知识更多,解决更难的问题。o3的编程能力,已经达到全人类的前200名的水平了,但是它的成本有多高?OpenAI还在考虑推出价格为2000美元的订阅层级。
上个世纪,算力发展也有两个方向,一个是当时大型机的巨头IBM,就是把计算机做大。时任IBM董事长的观点是,这个世界上未来需要不超过5台计算机。可信息革命最重要的基石是个人电脑,是算力的普及化和普惠化。
我们当然需要超级智能的大模型,数学能力堪比陶哲轩,物理能力堪比杨振宁,但是我们每个人日常的生活、工作和学习需要去让陶哲轩、杨振宁解决吗?o1、o3当然很重要,但是我不认为它代表着智能革命的未来,这只是智能革命的一部分。
南方周末:现在要在手机上运行一个大模型,目前还有哪些障碍?
刘知远:这个技术本身还没有发展到那个阶段,Densing Law的核心是发现大模型密度每100天倍增一下,也就是说100天之后只需要一半的参数,就可以实现同等能力的模型。现在我们已经能够实现在端侧运行GPT-3.5级别的大模型。但显然还不够,GPT-4还有GPT-4o这样能力的大模型,还没办法在端侧上运行,所以大模型能真正服务大部分人生活仍需要一两年时间。
南方周末:硬件上是不是也受到很大限制,手机上运行这样参数的大模型会有发热的问题?
刘知远:既有算力的约束,还有能耗、内存的约束。现在不能指望硬件,因为它的发展受摩尔定律的约束,每18个月才能够倍增一次,更快的办法是通过AI技术的演进来实现,用更少参数的模型实现相同的能力,让现有的硬件就能跑得起、跑得动这些大模型。
南方周末:算力方面目前还有多大差距?
刘知远:80亿参数的模型是可以实现GPT-4v的水平,但是它仍然只能用像苹果的最领先的M4芯片才能够跑得动,而且还比较吃力。
南方周末:Densing Law这个定律,是整个行业的趋势吗?
刘知远:OpenAI大模型的API价格,过去20个月也是不断下探,这说明他们也在努力推进这个模型的小型化。我不认为Scaling Law和Densing Law是矛盾的。这个世界上最领先的公司,他们也在努力让自己的模型变得更加稠密,我觉得这就是未来发展的趋势。大模型会变得越来越小,如同个人PC的普及过程,每个人都将拥有属于自己的大模型。我们给这个时间做了测算,10年。
“我们处在一个狂飙的时代”
南方周末:当越来越多的工作由AI完成,那我们人类何以自处?
刘知远:答案或许较为简单:我们应该把AI看作一个工具——尽管它是一个非常智能的工具。AI可以承担起那些过去需要人类智力才能完成的工作,从而解放人类的时间和精力,使人们能够专注于其他方面。
我认为,历史上任何技术发展带来的结果都可以进行类比。例如,人类能够制造大型飞机、大型收割机、汽车以及各种先进产品。这些产品的制造或生产本身并不意味着大多数人因为无法亲自制造这些物品而感到失落。相反,我们成功制造了这些产品,人们可以利用它们继续前进和发展。
在计算机领域有一个非常形象的名词叫“封装”。所有的产品都是一个封装的过程,正因为如此,成为产品之后,世界上只需要很少的人来制造这个产品,而绝大部分人可以享用这个产品。所以我认为,未来的人工智能也可能如此:只有少数人会去制造各个领域的AI产品,而更多人可以享用这些AI产品所带来的便利。
南方周末:15年到20年后千万不能从事的专业,你认为是哪三个?
刘知远:我不认为未来某些行业一定会因为AI的出现而不能从事。因为未来可能会是人机协同来生产相关行业的AI产品。任何现在主要由人完成的行业,未来可能通过人机协同将其形成产品。我不太觉得任何一个行业会变成消失的行业,只是它培养的人员可能不再需要历史上那么多。例如程序员和计算机编程人员,未来可能只需培养有限数量的工程师来不断改进AI编程产品。
南方周末:你认为哪些专业会较早受到影响?
刘知远:有一个非常明确的标准:首先,专业必须是高附加值的,即本身收入极高,替代它的收益也极大;其次,该领域的数据治理水平要足够高。满足这两个条件的专业会较快受到影响,例如金融、会计和法律等领域可能会较早受到一些影响。
南方周末:如何看待中美在人工智能上面的差距?
刘知远:我读博之前,能够发一篇顶会论文可以上系里的新闻主页。等我开始做教师的时候,如果不是发表一篇最佳论文,都不太能在系主页上发新闻。到了现在,几乎所有的顶级会议和期刊上,中国人都能占据半壁江山。我的感受是,我们处在一个狂飙的时代,而且这个速度并没有减缓。
从发展趋势来看,二十年前经常说中国商业模式都是Copy to China,十年前开始说中国更多擅长做模式创新而不善于科技创新,而最近几年我们国家已经有很多领先世界的高科技产品。
可能还存在差距的有两个方面,一个就是最前沿的原始创新能力,我们需要有更多的人能做最原始的引领全球从0到1的创新。第二,美国值得学习的地方是,有一个非常完备的创新机制。但是中国的特点是不太容易形成差异化的分工。