专访智源院长王仲远:当模型参数超过千万亿级别 就可能超越人类大脑

注意,人机共存的时代不远了!可当AI无所不能,人类做什么?

访谈丨薛芳  对话整理丨嘉林 编辑丨薛芳

出品丨深网·腾讯新闻小满工作室

“叔叔,如果人工智能什么都能做了,我们未来能做什么?”一个小姑娘站起来问智源研究院院长王仲远。去年3月,王仲远去北京的一所小学讲了一堂人工智能的课,小朋友们发现他们的课程作业人工智能都能回答得非常好。

这个问题击中了王仲远的心灵,一直在AI前沿的他内心并没有很明确的答案。2023年2月,王仲远履新智源研究院院长。王仲远讲话语速适中,气质沉稳而内敛。他过往的工作经历,十年磨一剑,霜刃未曾试。

此前,他曾担任过微软亚洲研究院的主任研究员,负责知识图谱项目和对话机器人项目;也曾入职Facebook ,担任计算机科学家;2018年,王仲远入职美团,用半年就领导团队构建出世界上最大的知识图谱“美团大脑”。

他重新做出了选择——从研究院到公司,再从公司回到研究院,用了十五年时间,他从最初知春路的希格玛到现在五道口的智源大厦,距离2.7公里。当然,这种选择的背后是王仲远看到了整个AI领域未来已来。

过去这些年,AI三次引发了公众的关注。1997年,IBM的超级计算机深蓝战胜国际象棋世界冠军卡斯帕罗夫;第二次则是2016年3月,AlphaGo在围棋人机大战中击败围棋世界冠军李世石;第三次是2023年直到一家叫OpenAI的公司打开了通往未来的星际之门。

“大模型带来的技术突破,彻底解决了过去几十年一直都无法攻克的一个难题——自然语言理解与逻辑推理。以2023年为界限,之前是弱人工智能时代,而之后很有可能进入通用人工智能时代,这里面有很多技术问题需要突破。”王仲远阐述。

可以想象王仲远内心的震动和兴奋。他一直以来的梦想就是希望能推动人工智能技术的发展。那么,智源研究院无疑是在那个时间节点最能实现梦想的地方。“智源是一家非营利性机构,定位是做高校做不了,企业不愿意做的事情。”王仲远阐述。

2018年,北京智源人工智能研究院成立。智源研究院是中国最早开展AI大模型研究的机构之一,也被称作“AI大模型的黄埔军校”。智谱AI创始人唐杰、月之暗面创始人杨植麟、面壁智能联合创始人刘知远、以及行业内的大模型领军人物或技术骨干不少等都曾参与过智源研究院的大模型项目。

去年 3 月,微软总裁Brad Smith在采访中说全球有三家顶尖的AI机构, Open AI,Google和北京智源人工智能研究院。智源研究院的创始人张宏江和前院长黄铁军的珠玉在前,成为这样一家机构的掌舵人,对于1985年出生的王仲远来说,肩上担子并不轻。

王仲远不仅仅是一个科学家,智源研究院的负责人,他更像一个创业者。

“智源研究院致力于成为人工智能创新引领者,那么如何做出突破性的成果?我们的技术路线判断是否正确?如何汇集最优秀的人才?人工智能造福人类的同时如何做到安全可控?怎样获取可持续发展的资源和算力?”这些都是王仲远一直在思考的问题,也是他要解决的问题。

整个过程中,焦虑是存在的。在王仲远看来,人在对抗焦虑的过程中才会有进步,焦虑往往会转化为他前行的动力。对他来说,“我自己会冥想、听音乐、旅游,与人交流,用开放的心态去对抗焦虑。”

焦虑,仅仅是一种情绪。那个小女孩的提问一直在王仲远脑海里萦绕,“我不能说有比较明确的答案,但我感受到了的责任。这个责任是既要促进人工智能的发展,为各行各业赋能,同时,要确保人工智能足够的安全,不会伤害人类。”

世界模型一定是未来的技术发展的路径

《AI光年》:2024诺贝尔物理学奖获得者、“AI教父”Geoffrey Hinton(杰弗里·辛顿)教授认为,在AI领域,生物智能最终战胜了机器智能,您怎么看?

王仲远:今年 3 月智源研究院举办的北京 AI 安全国际对话上,辛顿教授分享,他终于想明白了为什么数字智能一定会超越生物智能。人类大脑的神经网络不能直接复制给另外一个人,每个人学习所形成的神经网络都是独一无二的。不能把一个高智商的人的参数复制给另外一个人,使其具备同样的智能,但机器可以复制。

如果不考虑能耗的情况之下,机器智能有它独特的优势。当我们训练出一个非常强大的人工智能神经网络,它存在数字世界里,可以非常容易复制,每一个模型可以继续训练变得更优秀。只要模型的性能还能够持续提升,复制效率和学习效率比人类高得多。人类的学习效率其实非常低,我们只能读几千本、几万本书,但是机器可以把人类历史上的所有的书籍都阅读完。未来当人工智能写的书籍比人类书籍质量还高时,这种合成的数据就可能反哺智能进一步的提升。

《AI光年》:OpenAI的草莓目前好像部分地解决了大模型的幻觉问题,你怎么看?

王仲远:幻觉是阻碍大模型产业化落地的一个问题。这个问题不会被消除,但是会被不断地改进,直到控制在一定的范围内。

事实上,难道人类就没有“幻觉”问题吗,就能确保说的每句话都是正确的吗?关键还是幻觉比例的问题,以及是否知道可能出现幻觉。产业界当前通过信息检索增强的方案来作为解决幻觉问题的解法之一,智源研究院所研发的 BGE 模型,它是一种检索增强的模型,近期登顶了全球AI开源社区Hugging Face月度模型下载量榜首,成为了在信息检索增强方向非常重要的模型。当大模型需要回答法律、医疗或者产品的问题,必须有根有据。通过基于知识库的文档检索增强,增强模型回答的准确性,所以这是一个非常重要的基础模型。

Open AI的草莓模拟的是人脑的思考过程,会反思,纠正自己的错误,直到找到一个可能的答案。这样的双系统(快系统和慢系统)未来会逐渐成为主流。检索系统也是一种路径。正常回答问题时,如果知道这个答案就直接回答,不知道可能就会去搜索、查资料再来回答这个问题,搜索和查资料就是检索增强。

《AI光年》:ChatGPT 被认为是大脑的模拟器,Sora被称为物理世界的模拟器。多模态会不会是未来的趋势?

王仲远:人工智能的研究都会参考人脑的工作机制。人脑虽然有不同的分区,但它是一个整体的结构。人脑不仅仅处理文字信息,还处理很多模态的信息,声音、图像乃至更复杂、更多元的信号。所以我们相信,统一原生的多模态大模型一定是未来的技术发展路径。

当前多模态技术仍然没有收敛,行业在做多模态的理解与生成所使用的技术路线是完全不一样的。智源研究院在研究一套能够将二者统一的原生多模态世界模型的技术路线。行业现在多模态生成模型基本上走的是 Diffusion Transformer 这样的 DiT 基础路线,理解模型通常都是以语言模型为核心,再把视觉信号、其他信号映射到语言模型这样的一条技术路线。这种图像生成和视频生成的效果确实非常惊艳。

但是两者需要合为一吗?不同的科学家有不同的观点。不过,我们相信,多模态生成模型和多模态理解模型是要统一的。因为人的大脑是有视频生成能力的,我们每一天都在做梦,大脑每一天都在产生各种各样的画面和场景。这种生成能力也很可能会成为校准理解能力的信号,从而进一步提升理解能力。最后的世界模型是更接近人脑的,不仅要理解、推理世界,还要能跟这个世界交互。

《AI光年》:你刚才谈到了两种技术路线,这两种技术路线有没有难易之说?

王仲远:不是这两种技术路线的难易,而是我们要走一条全新的技术路线,叫原生多模态世界模型的技术路线,国内没有几个团队在尝试这条技术路线,因为它确实非常难。

智源研究院在过去半年的时间里攻克了一个又一个的基础难关,直到今天依然不能说完全攻克,但终于将不同的模态,将生成和理解的能力压缩在了一起。希望做到World in one,One for world。这是我们一个技术路径的选择。这个路径的选择,从创业的维度来讲,有可能会失败。没有失败的科研就不是真正的创新。失败也是创新的形式之一,是必经路径。但永远要有信念,技术理想。

10月21日,智源研究院基于下一个token预测,发布了原生多模态世界模型Emu3,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。

国内文生视频领域没有跳脱旧模式

《AI光年》:今年国内的文生视频领域比较卷,你怎么看待这种现象?

王仲远:世界模型和文生视频模型是两码事。当前的 DiT 架构能否走到世界模型,从技术路径判断上是有争议的,因为它的天花板是有限的。Autoregressive 的技术路线天花板高很多。过去的这段时间,文生视频模型国内发布的越来越多,有点像去年大语言模型,因为已经有一个机构验证了这条技术路径。国内很多企业去跟进,这种跟进也有价值和意义。但国内所发布的文生视频模型并没有跳脱旧模式,依然是技术跟随。

《AI光年》:这么卷有没有意义?

王仲远:短视频赛道在过去几年非常火,文生视频一定找得到它的业务产品和商业模式。当这条技术路径效果非常好的时候,值得去做,因为有商业需求,但是它并不一定是达到 AGI 的技术路线。从实现AGI的角度,当前文生视频的技术路线不一定是完美的技术路线。

《AI光年》:去年卷大模型,今年卷文生视频,一级市场一直有声音,现在出来了AI 泡沫论,你怎么看?

王仲远:任何一项技术,任何一个领域,有争论是一件好事。当前的技术能力、商业模式是否足以支持资本投入和市场期望?这中间存在分歧。如果仅从技术路线上来看,2023 年是一个转折点,是一个通往通用人工智能时代的分界线,很有可能是第四次的工业革命。任何一次工业革命的周期会很长,技术突破到产业化需要周期,我相信这一次人工智能技术的发展和突破本身不是泡沫。AI 泡沫论是相对的。原来可能需要 5 - 10 年发生的事情,大家希望在一年内发生,那么这就是泡沫。

《AI光年》:我之前问过一个著名投资人,这是不是意味着社会资源的浪费?他说是,但也没办法。现在大模型好像依然重复这条路径,好像也是没办法。你怎么看?

王仲远:这证明在中国的这个市场上有了更加充分的竞争,人才济济。我们需要的是能够突破核心技术的顶尖大模型,这样会更利于应用和产品的到来。大模型是对于算力资源、人才密度要求都非常高的赛道,所以我们希望最终能够收敛为几个基础大模型,这样会更利于生态的发展。

《AI光年》:你怎样看待技术和产业的关联?

王仲远:回顾互联网信息技术、人工智能技术的发展,我们会发现每一次重大技术革命都有周期性。当年的互联网出现之后,要有基础设施建设的过程,后面才会有像门户网站、电子商务等应用形态和商业模式的诞生。从 2007年 iPhone1发布,到2010年 iPhone 4推出,移动互联网才真正进入到成熟期,再配合当时 4G 发展进入到消费级,移动互联网的应用开始大规模涌现。

大模型也类似,前几年智源研发的悟道系列大模型,当时还处在一个实验室阶段。到过去这两年,以 OpenAI 为代表的全球 AI 公司在大模型技术上不断创新迭代,使其开始进入到产业界。未来当基座大模型进入到相对成熟阶段时,基于大模型的应用就能迎来蓬勃的发展。不论是过去还是现在,这都是正常的发展阶段。

《AI光年》:如果投资ChatGPT 、大语言模型或文生视频模型,如何考虑从投资到实现商业化所需的时间跨度?

王仲远:如果是关注模式、应用或产品创新的资本,应该看准时机再出手。如果是关注技术战略型的投资,现在正是好时候。

《AI光年》:AI距离商用还有多远?

王仲远:在 B 端作为一个效率工具,已经在很多领域有了明确的应用,比如,文章摘要、会议纪要,把非结构化的数据结构化,设计、广告、电商等。大家更期待的是一个面向C端的杀手级应用的诞生,这需要天时地利人和。模型能力提升,成本下降,场景出现,需求解决,当这些条件同时满足的时候,基于大模型的超级应用才有可能会诞生。C 端用户对于体验非常敏感,对于很轻微的幻觉问题,都会感知强烈,当这些都被解决,杀手级应用自然就出现了。

大模型能力提升会造成小模型的颠覆

《AI光年》:Sam Altman发起过一个7万亿的芯片计划,您怎么看?

王仲远:传言也好,真实事件也好,最大的问题还是算力成本。纵观整个基于神经网络的人工智能发展历程,每一次大的发展都是算法、数据、算力加模型参数的提升,一次量级的提升就会带来模型效果的提升。这在过去一年被定义为Scaling law,广泛传播。

未来,模型要继续扩大十倍、百倍的参数规模,数据量需要十倍、百倍,算力资源也需要十倍、百倍,而当下的算力还开不足以支撑。单个芯片的性能以及集群规模都需要提升,当提升到一定程度,很可能我们会见证新的人工智能发展阶段。

《AI光年》:大小模型之争是另外一个技术维度的问题,还是卷或者竞争维度的问题?

王仲远:一方面我觉得大模型会越来越大。10 年后很可能我们今天的模型就已经变成了小模型。2018 年 Bert 发布时,是亿级的参数量,在那个时候几乎就是世界上最大的模型,但在今天的时间节点来看就变成了小模型。所以未来 5 年、 10 年,算力、模型性能进一步提升,大模型会越来越大。

但另一方面模型要做小,满足性能和成本的要求,才能实现产业落地。将大模型做小,一种方式是通过技术的路径,把同样的性能压缩在一个更小的模型上,另一种方式是推动计算性能本身的提升,让算力去承载大模型时成本足够低。

《AI光年》:一个大模型技术很强,做一些拆解和技术方面的切割,还是市场全面开花,出现很多大模型?

王仲远:如果将大模型比喻为人脑,这个世界有 70 亿人,也就是70亿个大模型。大模型进入到各个领域,各个行业,各个企业,一定有他自己的领域。这个问题一直有技术路线之争,在我看来,如果大模型的能力特别强,可以通过 API 的方式调用,但是如果进入各行各业,每个行业都有自己独特的数据,需要对大模型进一步训练、对齐、Fine-tuning ,就会产生所谓的领域模型。更有可能的情况是有一个很强的基础大模型,又压缩成小模型,然后进入到各个领域进一步的训练,变成这个领域里面最强的模型,但这仅仅是一个技术路线的猜测和判断。

《AI光年》:那就是强大的通用世界模型,可以取代了各种垂类小模型?

王仲远:每一次基础大模型的能力提升确实可能带来小模型的颠覆。但如果类比人,即使是博士毕业,他进入到一个企业工作,也依然有学习和适应的过程。

《AI光年》:那是不是从某种意思来讲,只有通用模型才有很强的竞争力?小模型在中国这种市场环境还是蛮脆弱的?

王仲远:要看这个小模型怎么定义。如果这个小模型是当年弱人工智能的产物,那它的竞争力一定是不稳定的。如果这个小模型是基于大模型的一个产物,保留了大模型很多的推理能力,那么可能是非常强的。

其实在 AI 1.0 时代,已经有很多小模型在各行各业里发挥作用,但是小模型因为参数量和训练语料的问题,能力的天花板是有限的。大模型将能力的天花板实现了重大提升,但不代表它在这个领域内就能做得非常好,它进入到这个领域依然需要去学习。就像我们从小学、中学、大学读到硕士、博士,但我们进入到企业依然也会接受企业的培训,再去适应这个行业,适应这个领域。

《AI光年》:面向未来,有一个疑问,Scaling law失效了吗?下一代的模型性能能否有进一步的提升?

王仲远:我们来看数据、算力、这几个要素。数据方面,全互联网的文本数据已经被用来做模型训练,如果我们不能突破数据的局限,模型性能就会遇到瓶颈,目前在一些特定的领域,例如编程,通过模拟器、编译器,它能验证结果,用合成的数据去模拟人类的思维找到确定答案反哺,也是在解决数据不足的问题。另外,全世界的多模态数据是文本数据的百倍、千倍,如何有效利用这些数据来进一步提升模型的能力,也是一个待解的问题。

算力方面,国外已经有 10 万卡级别的集群,如果我们的参数要继续扩大十倍、百倍乃至千倍,10 万卡依然不够,算力进一步提升,集群规模进一步扩大都会是下一波模型重大提升的必备条件之一。参数方面,行业里普遍认为 GPT 4是 1.8 万亿参数,那么什么时候有十万亿、百万亿、千万亿的参数,当模型参数到千万亿级别就和人类的大脑容量相似,甚至超越人类大脑。这样参数的模型如果能被训练出来,数据被突破,算力被突破,它很有可能达到通用人工智能。

我们这一代人会见证AGI的诞生

《AI光年》:智源设有 AI 大模型安全研究中心,你怎么看 AI 安全问题?比如AI会不会失控?

王仲远:人工智能技术发展到今天,尤其大模型技术的发展,是有可能达到AGI的,这让AI安全尤其重要。人类的历史上,还没有其他生物体或机器智能达到或者超越人类智能。当大模型可能在未来几年到几十年实现AGI 时,我们需要更早的开始思考它的安全性。作为一家非营利机构,智源有责任更早地思考,这也是我加入智源的初心之一。

我们这一代很有可能会见证 AGI 的诞生,我们的下一代很有可能会与 AGI 共存。那么如何确保AGI 是安全可控的,是为人类服务而不是管控人类的?这是我们要解决的问题。当前的大模型技术已有可能对人类带来各种危害,比如大模型的语言能力可能带来不良的文字引导,文生图、文生视频的能力可能造成更多虚假信息的泛滥, AI安全已经迫在眉睫。

智源研究院一直以来都非常关注AI安全。2023年智源大会,我们首次设立了 AI 安全的论坛,OpenAI CEO Sam Altman和图灵奖获得者Geoffrey Hinton教授(也是今年诺贝尔物理学奖获得者)参加了。2024年 3 月,智源举办了北京 AI 安全国际对话,我们创始理事长张宏江博士和图灵奖获得者Yoshua Bengio教授担任论坛主席,与会专家联合签署《北京AI安全国际共识》。2024年的智源大会上也继续设立 AI 安全论坛。这也反映了国际最顶尖的专家学者对于 AI 安全的思考和重视程度。我相信只要我们从现在开始努力,还是有可能将 AI 控制在一个安全的,造福人类的范围之内。

《AI光年》:AGI 会完全替代哪些职业?如果 AGI 是一种赋能,未来会在哪些领域落地和应用?

王仲远:这一波人工智能与以往最大的区别是越来越像人类的大脑,这就意味着所有人能做的事情,将来大模型或者人工智能都有可能发挥作用,几乎会进入各行各业。有些行业可能进入得快一些,有些行业可能进入得慢一些。

之前网络上流传一个玩笑话,我们原本以为人工智能会先取代蓝领,没想到先取代的是白领,原本以为创造力是人类所独有的,结果生成式AI的创造能力比人类还强,想象力比人类还丰富。这一波人工智能的发展,不管有没有达到AGI,对各行各业都会产生赋能。

《AI光年》:人类应该怎样接受被AI取代,用什么样的心态去接受?

王仲远:如果我们看人类过去的发展历程,每一次重大的技术变革最初是解决不了问题的,但是我们始终要去思考如何让技术向善,这是我们这一代人的责任,尤其智源作为一个非营利性机构,更有责任去确保人工智能是安全的。这不是说人工智能一定会失控,我相信它还是可控的。在原子弹刚发明出来的时候,大家也担心世界要毁灭了,但人类社会是非常有意思的群体,发展了几千年,每一次危机最终都得到了控制。

《AI光年》:可以给年轻人什么建议?

王仲远:一定要选择自己热爱的事情。我回顾过去15年的工作经历,最重要的是一直在做自己最热爱的事情。我之所以从企业又回到了智源研究院这样的一个偏科研性质的机构,是因为人工智能是我一直热爱的事情。让人工智能像人类一样理解世界,推理世界,实现真正的通用人工智能,是我内心一直以来的追求。

《AI光年》:您刚才说我们这一代人可能会见证 AGI 的到来,下一代可能会和 AGI 共存。那么,人和 AI 未来应该是一个什么样的关系?

王仲远:如果 AGI 真的诞生,我希望它与人类是良性互动和共存的,能为人类所用,造福人类。人类与动物的区别在于会发明和使用工具,人类历史上,技术的突破和发明,最终都变成了人类的工具。

人工智能过去也一直都是人类的工具,但是当它的智能化水平接近、达到或者超越人类的时候,还能不能继续作为工具为人类使用?这是一个非常难以回答的问题,但我们希望它是可控的。

《AI光年》:AGI何时到来?

王仲远:这个问题行业里一直有不同的观点。去年非常乐观的时候,大家认为 AGI 一两年内就能到来。GPT 5 迟迟没有发布,大家又开始对 AGI 是否有泡沫,这一波人工智能是不是已经见底展开争论。

但如果我们回顾过去整个基于神经网络的人工智能发展,算力的提升,数据规模的提升,模型参数规模的提升,我认为 AGI 有可能在未来 5 ~ 20 年到来。这是为什么我认为我们这一代有可能会见证 AGI 的诞生,下一代很可能要与 AGI 共存。