李彦宏百度世界2024圆桌访谈:应用驱动是第一性原理,百度的多模态能力非常强

1112日,在百度世界2024”期间,百度创始人李彦宏与品玩/硅星人创始人骆轶航、甲子光年创始人张一甲进行了一场圆桌访谈。

图片
以下为访谈精编实录:
为什么是应用来了
1、张一甲:过去一两年,每天我们都看到非常多的产品和技术进展,百度可以聊的事情也非常多,今年世界大会为什么主题定为应用来了
李彦宏:因为我从去年开始不断讲,模型本身不产生直接价值,只有在模型之上开发各种各样应用,在各种场景找到所谓的“PMF”,才能真正产生价值。如果说2023年大家还在卷模型,让模型能力逐步地达到可用地步的话,那未来所谓的可用,就是真的有东西用,应用的
过去这一年,整个行业有比较多焦虑。这个焦虑是:超级应用到底在哪里?创业者机会是什么?模型已经这么长时间,甚至有人觉得模型技术迭代速度已经慢下来了,但超级应用没出现,那怎么办?大家都在问这些问题,所以当时就起了个名字,叫应用来了。可以把我们的探索,我们的努力,我们的工具,我们找到的路径和方法分享给大家。也把别人在我们平台上做出来的有价值的东西,给大家介绍一下,这样可以让更多人找到自己发展的路径和方向。

2、张一甲:百度在人工智能方面是全栈式布局,是一个扛旗者。在大会演讲中,你主要讲了iRAG、智能体、无代码。为什么挑选这几个作为重点?它们之间的关系是什么?
李彦宏:还是从应用角度出发。我们做人工智能有十年以上时间,一直投入比较大,也比较相信(AI)。从技术角度,从芯片到框架、到模型、到应用都有,要做的事很多,整个行业发展也非常快,做事的逻辑或者说priority怎么去排,我们是从上到下在看:
从应用往下看,应用需要什么模型,模型需要什么框架,框架需要什么样的芯片,这样一步一步走下来。像iRAG,就是应用需要AI生出来的图要保持原状,需要特别准确的多模态能力。一个公司的logo不能错,不能有变形,颜色不能有失真。经过近一年努力,我们觉得这个技术现在到了比较实用的阶段,所以首先讲了这个。过去两年,RAG使大语言模型具备了实用价值,可以有效控制幻觉生成,所以它才在各个场景,尤其是toB场景应用起来。多模态要想进入真正实用阶段,也得有准确性、可控性,应用空间才能打开。
打开以后就要看哪些地方能够有应用,我在智能体上讲了四种类型。产业应用也是依据我们跟这些公司的合作,在具体的业务场景里,怎样把效率做出来,怎样让他们真正获得实实在在的收益。
最后讲的无代码多智能体协作,我觉得是一个非常伟大的东西。现在硅谷和美国很重视辅助代码生成,既有基础模型的公司在做,也有创业公司在做。他们的逻辑是什么?美国很缺工程师,一个工程师又很贵,年薪几十万、上百万美金。如果能帮工程师提升效率,原来做两小时的工作,现在只用一小时,他们都是这种思路。但我们的思路是,能不能把大模型的应用门槛进一步降低?原来不是程序员的人,能不能也具备程序员的能力?今天一个计算机本科毕业生,写两三百行程序不成问题,但这个群体在整个人群中也是少数群体,对应几亿劳动力,还是很小很小的比例。那几亿人怎样能具备这样的能力?
今天,随着基础模型和智能体的能力逐步提升,我们把这些能力综合在一起,就可以让普通人,一行代码都看不懂的人,具备程序员的能力。当几亿、十几亿人都具备这种能力的时候,它对于创造力的爆发,是辅助代码生成工具没法比的。辅助代码工具还是让金字塔塔尖的人更加powerful。而我们希望金字塔中间层和底层的人,拥有金字塔塔尖这些人的能力,这个意义更大。所以我们把主要的努力方向放在这上面。

3、张一甲:工程师、程序员群体是对大模型、人工智能最有主动性、积极性探索的群体。百度做布局的时候,为什么不是先激活这个群体,而是直接下沉到不会写代码的群体。
李彦宏:也不是直接就下沉,客观地讲,我们也有代码辅助生成工具叫Comate,现在百度内部一万多工程师,大约30%的代码是大模型生成的。但它赋能的只是现在这一小比例的群体,它对于提升工作效率的作用确实已经比较明显了,我们也有不少客户用它提升效率。
我觉得这是两个不同的赛道,这个赛道往前跑没有问题,我们也在做。但我觉得意义更大的是另外一个赛道(无代码),它真的能让几亿、十几亿人都可以具备程序员的能力,意义不太一样。

基础模型两年一个大版本可能比较合适
4、骆轶航您今天在百度世界上的演讲跟我们听到的很多演讲有很大不同,我几乎没有听到两个词:一个词是AGI,一个词是Scaling Law。不讲这两个词的AI类主题演讲和活动,几乎已经不存在了。但您真的没讲,是因为对这两个词有什么看法?是不是因为AGI太远,Scaling Law卡住了?
李彦宏并不是故意的。只是没有跑到我心里,让我觉得重要到需要在百度世界上一定提一提。AGI这个词,就像一千个人心目中有一千个哈姆雷特。如果再讲百度怎么定义AGI,无非就是又增加了一种定义。即使跟别人不一样,也没有多大价值。
既然主题是应用来了,我还是更加关注应用。至于更加长期的东西,我们还是在沿着这条路在做。但把这些东西讲得更完整或深入,我觉得只对非常小比例的人有价值,更大比例的人只是多知道了一种AGI的定义,意义不大。

5、张一甲ChatGPT上线以来,2023年业界不断有很多重要的模型发布,有很多重磅的进展,每天被各种标题党和新闻轰炸。但今年,OpenAI没发GPT5,而发了GPT4oO1的模型,看起来可能是一个分叉树上的成果,或者是微创新成果。所以,大家会困惑,大模型基础技术的进步是不是在放缓?
李彦宏取决于你从什么角度看这个问题。如果就当做一个学术项目,北极星指标就是「哪一年或哪一月能实现AGI」的角度看,可以说技术进步的速度有所放缓。但我的视角更多是在应用,大模型的技术进步到底产生了什么应用。从这个角度来说,我认为技术进步的速度不仅没有放慢,甚至有变快趋势。
我上午讲了消除幻觉,过去幻觉现象非常普遍。现在不管用哪个AI助手,问它问题,比如,我住的酒店游泳池有多长?过去在网上搜索这个答案要花很多时间,官网没有,旅游网站或某个用户评论区有这个信息,但你得找半天。现在大模型直接给你答案,这个答案能不能信呢?能信,就是因为RAG这类技术的提升。
过去一到两年,我认为大模型在迈向实用过程中发展出来的能力,其实仍然在以比较快的速度增长,所以你能够看到文心大模型的日均调用量上升那么快。调用就说明它有用,在各种具体的场景中产生了价值。
反而是基础模型不能够特别快的迭代。如果老在变,那做应用的人就无所适从了,该做什么我不知道,我刚做两个月,你又升级了,把我的冲掉了,白做了,我又得重新适应一遍新规则,可能两年一个大的版本是比较合适的节奏。

6、骆轶航:所以我们不能等,第一我们不能等模型进化到AGI的阶段再去做应用。
李彦宏:没有必要。
骆轶航:第二,我们不能让模型应用开发的速度和模型进化速度之间产生误差,这样的话应用发展不起来。另外一个维度,我们讲了模型进化,模型进化是整个能力的进化,刚才一甲讲了O1O1是另外一个维度,是个深度思考的维度,这个维度本身对于做应用有没有更好的促进作用?
李彦宏:有意义,这个维度其实非常有意义。百度大概也是从去年第四季度开始,在朝这个方向做,我们没有把它叫做强化学习、O1。我们就叫智能体,你可以注意到去年第四季度我们开始讲智能体,智能体可以反思、进化、使用工具,这些能力都是今天O1努力的方向,这个方向和传统意义上大语言模型的方向确实不太一样。
我刚才讲了,开发者可能已经逐步适应了怎么在大语言模型上开发应用,突然搞出来一个新的方向,又得适应一遍。其实我们也很希望大家赶紧适应这种新的思维逻辑,怎样慢思考、调用工具。但这有大家学习和适应的过程,今天虽然我们发了多智能体协作这些东西,但让一个开发者开发一个多智能体协作的应用,其实难度还是很高的,成本很高,反应速度很慢,各种各样的能力怎么调用,有一个接受的过程。我很看好,但是得逐步地让大家学习这种新能力,先接受,然后再把它利用好。

7、骆轶航:大会的无代码也是非常让人兴奋的环节,只要会说话,就能开发应用,不需要会编程语言这个世界上只要你会讲中文和英文,理论上你就能开发应用,做智能体。这句话会不会多多少少造成误导,让大家觉得这个门槛真的已经降得很低了。真的已经这么容易吗?因为在硅谷看到很多AI应用开发者在用不同的模型『调鸡尾酒』,有的人在fine-tune小模型,其实蛮复杂的。您怎么看目前对这个事情的定义,和真正AI应用开发之间的距离。
李彦宏:还是两个不同的track在那些最复杂的应用场景,可能确实不仅要考虑应用,还要考虑模型的能力,还有模型精调、数据标注等,大量的工作在可预见的未来仍然是需要的。但另一方面,很多相对没那么复杂的应用,也许在过去看来,开发出来还不是那么容易的事儿,在今天看来,你不是程序员,花几分钟时间也能做出来了。
这一条赛道也是一个逐步发展的过程,我不希望大家有误解,认为明年一季度所有程序员能干的事儿你就全能干了,不会这样一蹴而就的。但它是非常有希望的赛道。今天能够写两百行代码,一年以后可能可以写两千行代码,再过三年可以写两万行代码,这个能力会逐步发展出来,它会让更多人的创造性激发出来。

不做Sora,但在多模态能力上非常强
8、张一甲:另外一个比较火热的概念,就是多模态。从年初Sora开始,多模态成为了今年为数不多的炸点,有非常多公司冒出来卷Sora,这个事情百度怎么看?做不做Sora
李彦宏我觉得Sora和多模态是两个事儿。Sora本质上是任意场景下的视频生成能力。这件事情有没有意义呢?非常有意义,却又非常难。你想想它的本质是什么呢?是可以做到基本预测未来,你可以预测一个画面的下个10秒会变成什么样子。无人驾驶是一个特殊场景的视频生成,我现在车开到这儿了,那下一秒应该怎么开,会看到什么样的景象,如果都能解决的话,那无人驾驶就不用做了,可以靠类似Sora的东西做出来。
正因为是这么大的一件事儿,所以我觉得它需要很长很长时间才能够做出来。但我们今天讲的多模态,实际上是解决另外类型的问题。比如数字人,数字人不是纯语言模型,生成的文字要用语音表达出来,语音表达的时候口型要能对得上,手势应该做什么;如果转头了,侧面的图像能不能跟正面保持一致等,看起来都是一个比较简单的事情,但你仍然需要解决。靠任意场景下生成视频的东西,不一定能把这事儿解决好。
如果真能做到任意场景下的视频生成,也许能够解决,那可能要很长时间,而且成本很高。用简单的方法,就能够做到,那为什么不呢?先把这些事儿解决了,让这个应用能跑起来,这是我们的思路。所以外界有一种误解,百度不做Sora,就等于是百度不做多模态。我们非常非常看好多模态,也在多模态上有非常长期的投入,在真正有应用场景的地方,我们的多模态能力是非常强的。

9、张一甲:是不是iRAG就是百度走向多模态的一项重要基础技术?
李彦宏是的,它是我们在开发各种各样应用过程中遇到的一个障碍,必须把障碍搬走后,才能再往前走。
骆轶航这是你自己发现的问题?
李彦宏:没错。
张一甲:面向我们想要的人工智能未来,是我必须要解决的问题,没有它我其他所有的应用,所有将来可能的图景都是过不去的,所以我必须要完成那个事?
李彦宏:是这样的。

10、张一甲:今天你非常详细地讲了iRAG,它是一项基础技术,接下来iRAG准备怎么用?往哪个APP上用?还是以什么样的形式走向终端应用?
李彦宏:终端应用应该是大家群策群力,每个人根据自己实际需求,已经了解的场景,更好地使用它。其实今天举了不少车的例子,车这个行业很依赖市场推广,他们在做市场推广的时候非常非常讲究。出一款新车型,要拍摄非常漂亮的画面,照片也好,视频也好,要花很多钱。拍一张车的图片,最少得几千、上万块钱,而它要拍好多张图片,还要拍视频等等。过去五千块钱做的事儿,现在五分钱就能做出来,还可以大量做。
今天车飞越长城的例子,那个是不可能靠拍摄的,车飞不起来。车飞起来的话,好看不好看?确实好看。在这种市场宣传场景,非常有用。既要保持车该有的东西必须有,不变的东西不能变,又要能够放飞人们的想象,真正有创造力的故事情节能出来,那肯定会更吸引人。所以,在几乎所有的创作场景,iRAG都非常有价值。

消灭幻觉并不一定杀死涌现
11、骆轶航:你有一个非常重要的论断,过去两年大模型基本上消除了幻觉。幻觉有的时候是涌现的伴生品,消灭幻觉,会不会也杀死了进一步涌现的能力?
李彦宏:这就需要我们这些从业者不断地创新,既要消灭幻觉,还要能够保持涌现能力、创造力。国外很多人讲,基础模型将来能够具备诺奖获得者的智力水平,那是极大的创造力迸发,这确实是努力方向。但与此同时,它的这种副作用,就是幻觉,是要能够控制的。
张一甲:技术的角度来讲,让它减少幻觉变得非常精准,和它给我们带来很多的想象力,这两个事情本质上是矛盾的吗?
李彦宏有一定的矛盾,但可以解决,至少是可以逐步解决的。我遇到问题的话,总会想办法。我希望鼓励什么东西,我在这方面要加强,不鼓励什么东西,要用其他的手段去进行控制。

真正的legacy就是,我信AI
12、骆轶航:中国AI有两派人,理想主义者和现实主义者,理想主义者追求模型的不断进化;现实主义者追求有多少人用模型能力做了多少具体事情。您的演讲没有大词,没有基座模型的进展,甚至不提文心一言和文小言这几个字,更多是应用。我想知道您是从哪个时间点开始越来越倾向变成一个AI发展的现实主义者了?
李彦宏:其实讲模型能力,我也可以讲一个小时甚至更长,我也不认为自己就是纯AI现实主义者。没有讲的,并不表明我们没有做。事实上,我们很多研发资源还是投在了外界看来基础能力或者说理想主义者看重的东西。我们也在不断地在这方面加大投入、付出努力。我只是觉得,没有必要把这些只有极少数人才能够听得懂或者才会appreciate的东西倒出去讲。我需要更多讲的是,更多的人,几千万人,几亿人确确实实能够用得到的东西。如果我是在面试一个工程师,谈的可能就会更偏技术底层。

13、张一甲:大会整体呈现的画面是,我需要为更多人解决问题,非常务实,非常具体。而不是像很多我们看到的,谈一些想象力和文明、终极的人和机器交互这种很大的命题。今天你有一个很大的篇幅讲智能体、自由画布,现场看大家很兴奋,自由画布这个idea怎么诞生的?它是百度对于多模态应用的一种终极的想象吗?
李彦宏:还是基于需求。这个事情最早是因为百度有个产品叫文库,文库最早是找现成文档,并不是做生成的。在生成式人工智能技术出现之前,文库已经出现了。但是当有了生成式AI,我们发现人们最根本的需求,不是找现成的文档,而是创作自己的内容。
我们怎样能够基于现成文档,或者哪怕没有现成的文档,也能够让他更好地创作,这就是最早文库的重构。后来我们又发了单独的产品叫橙篇,现在又推自由画布,是一步一步让人们能够更加方便地创作内容,或者也不仅仅是创作,是communicate your ideas,心里怎么想的,怎么能够把它更方便,更准确地表达出来。过去人们觉得说,我有一个Office就可以了,其实Office远远不够,我心里怎么想的,怎么落到纸面上,不管语音也好,图像、文字也好。这个过程,我们怎么赋能这些用户,做到这些事情。

14、骆轶航常有人说巨头做AI,做创新,最大的负担是legacy,创业公司能够没有负担的往前跑,但自由画布今天出来以后,大家反应还是挺热烈的,觉得挺有意思。但这个东西恰恰是建立在百度的legacy基础之上,因为我们有文库,有自己的东西。所以怎么看我们过去的一些积累?无论是深度学习、机器学习还是产品上的积累,其实对我们现在掌握用户需求,做用户真正关心的AI应用,这个事儿上帮助是什么?
李彦宏:根本原因还是到底信什么?一旦你从这个视角考虑问题的话,都很好解释了。百度信AI,不是今天才信,也不是两年前信,是十几年前就信这个东西。所以文库的改造也好,或者说非常坚决地做一些在大家看来是全新的东西,没有太受legacy的束缚。我们真正的legacy就是我信AI,一旦你把这个东西当成legacy,这些东西其实就都很好解释,因为就是在做我们多年前一直想做的事。
图片

超级应用会有,只是时机未到
15、张一甲百度应该是国内最早做AI的,是人工智能的扛旗者。下一个聊聊超级应用。去年开始,我们都不断地在畅想或期待,能够出现一款超级应用。但是为什么今年并没有出现?
骆轶航不光中国没出现,美国好像也没出现,本来就不该有吗?还是说还没出来?
李彦宏:第一,不是说不会有,我认为会有,只是时机没有到。之所以大家觉得该出来了,但还没出来,是因为大家很容易拿这波生成式人工智能和上一波移动互联网或者上上一波PC互联网相比。说那个都是火了几年以后,我们就已经比较明确地能够看到超级应用出现。但其实你注意到,当生成式人工智能起来的时候,我们对外一直讲这是一场新的工业革命。如果是工业革命的话,应该去比较当时电力革命发生的时候,这个超级应用是什么,过了多少年出来的?当时蒸汽机革命出现的时候,超级应用是什么?是怎么出来的?那些东西可能更具可比性。
骆轶航它不是长在一个设备上的一款APP或者一个软件,可能是更基础设施的东西是一个超级应用。
李彦宏:没错。

16、张一甲:比如电力革命,并不是说我们有一个爆款产品把这个工业革命掀起来了,而是变成基础设施以后,我们电灯、电话、电视、电报,各式各样百花齐放成就了一个时代。这是为什么您今天有一个概念说,相比超级应用更重要的是不断赋能数百万超级有用的应用,这句话是你想到的吗?
李彦宏应该是我最先说的吧。
张一甲:这一字之差,其实内涵非常大。
李彦宏对,确实就是代表我们的理念,或者说代表我们真正关注的点。
张一甲:目前百度一方面自己做应用,一方面也在大力推广智能体生态。未来如果出现了真正的超级应用,最有可能是百度自己做出来的,还是开发者做出来的?
李彦宏:我认为更有可能是开发者做出来的。我内部也讲同样的话,我们同时做十款应用或者最多一百款应用,外界可能有一万个创业公司在试各种各样不同的赛道,所以一万对一百,哪一个做出来的可能性更大?一定是外界做出来的可能性最大。我们还是主要精力放在做工具,做基础平台,让大家更容易地在这上面开发应用。

百度从来没有对标过OpenAI
17、骆轶航我是第一次听到类似于这样的观点,出自一个做模型的公司。当你讲这句话,我想的是OpenAIOpenAI一方面天天开开发者大会,给开发者提供一些工具和API,一方面自己不断推进模型往前走,每推进模型往前走,哪怕一个小的功能,也杀死一批创业公司,以至于现在好像看到的唯一有超级应用影子的AI应用,在美国就是ChatGPT。所以我们现在能不能讲,百度在它和开发者的关系上,完全不想做另一个OpenAI
李彦宏:说实话没有想过这个问题。
张一甲:是不是百度从来没有把OpenAI当做自己的对标?
李彦宏:没有。
骆轶航:但是模型本身上会拿它当做参照。
李彦宏:我们会关注它在做什么事情,但确实没有想过,要不要成为它。
张一甲:基因角度讲,百度也从来不是OpenAI
李彦宏不是。这并不表明,我们是一个刚才你们讲的那种纯粹现实主义者,其实我们也挺理想主义的。当你的梦想是让几亿人、十几亿人都具备程序员的能力,这个又需要很多年大手笔投入的时候,这难道不是一种理想主义吗?
骆轶航:对,长期的理想主义。

智能体与搜索结合拓展了搜索的边界
18、张一甲:您把一个工具做到了千家万户,让所有人都可用,本身也是一个巨大的蓝图和理想。关于应用,之前您对外分享提到,从CopilotAgent,到AIworker,智能体会是AI应用的终极形态吗?还是过渡阶段?
李彦宏:这个问题应该放在时间线的坐标轴上看,拉长这个时间线的话,肯定Agent是过渡形态。但我判断这个过渡形态会持续比较久时间,即使是AI worker出现以后,它跟智能体还是会长期并存,有些东西可以完全自动化了,有些东西还是需要通过人和AI或者说跟虚拟人的协作来完成,还是分不同的场景。

19、张一甲:智能体也会存在分发和流量入口的问题,跟传统的搜索以及现有的产品矩阵之间,会不会有流量争抢、竞争的关系?
李彦宏我们想象的分发机制或者流量入口,比较类似于现在的百度搜索。在百度里搜相应的词,你出来就有可能是一个智能体。比如今天说的法行宝,你跟这个智能体,就像跟一个律师在线问答一样,可以进行很多轮互动,我们看到有用户跟智能体不断地问,有好几十轮的互动。

20、骆轶航:搜索公司是不是更容易做好AI智能体和很多更好的AI应用的框架?
李彦宏:应该是。大语言模型跟搜索本身很近,我们搜索一直在处理语言文字类的东西,这是为什么我们可以很快推出来文心一言。另一方面,你有那么多智能体的时候,还是要解决怎么能够跟人的需求高效匹配起来的问题,人有了这种需求以后,上哪儿接触到这些智能体,最高效的连接还是搜索。

21、张一甲:每个智能体有多轮的对话和具体的功能,好像很多功能点进入到了一个又一个深井里面,进入到一个更深的、实用的场景里面去,会不会对原来百度的搜索的界面进行了某种分流?
李彦宏准确的讲,不算分流,这个更多是打开了新的可能性。传统的搜索确实属于像快消品一样,即时满足你的需求、给你答案。而智能体需要多轮交互,特别复杂的需求,要一轮一轮的交互澄清,最后帮你解决问题,甚至需要调用工具解决。这些问题,传统搜索要么解决得不好,要么压根儿解决不了,这两者的结合拓展了搜索的边界,不是一个完全的替代或者分流。

22、张一甲:未来我们在百度搜索框里搜一个概念的时候,我们会一部分看到搜索信息的结果,另外一部分会联想到它可能匹配的智能体,然后进到智能体里进行多轮交流和使用,是这个意思吗?
李彦宏:对。
骆轶航:过去搜出来的是网站,现在搜出来的是智能体。
张一甲:最终的流量还是集中在以百度搜索为核心的主阵地,而不是我们分发成很多APP,别的入口?
李彦宏:APP还是移动互联网时代的理念。智能体是一种更好的、满足过去满足不了的需求的新形态。大家这么关注分发,其实还是互联网思维导致的。今天我举的像百胜中国、智联招聘这些例子,它关注的不是分发,而是它自有的场景,怎么能够更加高效、更加低成本、更加快速的做事。这样的例子还有很多很多。
张一甲:这里面会存在一些商业顾虑吗?比如由于很多智能体的存在,让原有的商业搜索蛋糕被稀释了,有这样的隐忧吗?
李彦宏:没有,我觉得现在根本没有必要考虑对现有商业模式的冲击,因为你一旦打开了更多的可能性给用户、客户,创造了新价值的时候,总能找到新商业模式。

23、骆轶航:比起很多同行,文心大模型并不是API降价上非常激进的玩家,是什么导致了文心大模型最近两个月调用量的陡升?
李彦宏:其实我们价格非常有竞争力,甚至有些模型是大家可以免费调用的,相当于送算力。更重要的是,我觉得是开发者群体的觉醒,逐步意识到了可以用模型来做出什么应用来,这是为什么我们今天强调应用来了。过去一开始调用量曲线相对较平,是因为绝大多数人还不知道大模型能做什么,一旦知道了之后,需求其实是足够旺盛的。
骆轶航:所以这个曲线也不仅是针对百度和文心大模型的,是针对整个行业的。
李彦宏:对。整个行业都有这样一个趋势。

应用驱动是第一性原理
24、张一甲:作为百度的掌舵者,每天面对这么多AI进展,你的底层思维是什么?取舍过程中,有没有背后思考的第一性原理?
李彦宏:就是应用驱动。这个和美国很多公司做法很不一样,他们一直都是梦想做出颠覆性技术,要多少年之内做成什么样子,产生应用,更好像是个副产品。我们更多希望尽早接触场景和应用,看在这个过程当中,到底遇到了什么问题。大家遇到最多的问题,就是我们优先解决的问题。
骆轶航:其实我们是在用产品和工程的思路来看待模型驱动应用,而不是在攀登技术演进的珠穆朗玛峰上寻找答案。
李彦宏:很多美国同行,他们做法是把它当做一个science,有一个终极目标,就想尽各种办法解决它。我们是把它当做一个问题,可能通过工程的方法,也可能用其他方法来解决。你看现在诺贝尔奖都授给公司CEO了,为什么呢?因为很多即使是从science的角度很有意义的事,最后是靠工程方法解决的。
所以做工程不丢人,做工程很有可能是比科学更早发现机会和规律。飞机就是,飞机先飞上天了,人们才开始研究,原来有一个东西叫空气动力学。

25、张一甲:我们谈工程落地的时候,会涉及到非常多需要解决的问题,您怎么决定重心投入聚焦的地方?
李彦宏:任何一个企业家面临的机会和挑战总是很多很多,是数不清的。都应该具备一个能力,就是要有能去粗取精,去伪存真,最后沉淀下来,排出来自己要做的事情,并且脚踏实地的把这些问题解决掉。

26、张一甲:关于人工智能技术本身,其实还是存在一些分歧。百度内部投入下一代技术研发的时候,你们是all in朝一个地方走,还是会形成多条线,同时在往前推?
李彦宏:这是我们内部不断讨论的问题。这个答案在不断推演,不断修正的过程中。任何一个公司的资源都是有限的,你不可能什么都做,并且什么都做得很好。所谓战略就是取舍,我们内部不断在做这样的取舍,技术模型有很多需要发力的地方,到底做什么,不做什么?先做什么,后做什么?可能今天给你的答案跟三个月以后给你的答案又不一样了,但是你说是不是只赌在一件事情上,肯定不是,我们是多条线做的。

27、张一甲:您怎么定义什么叫做自己想要的人工智能?那每天面对各种信息,怎么保证自己看到的是真相?
李彦宏:我也会看到各种各样的说法,此外还能看到很多别人看不到的东西。公司内部,我们在最前沿的模型训练过程当中,到底遇到了什么问题,到底哪不满意,很多这种别人看不到的东西我能看到。因而,我也可以根据这些所看到的信息综合起来,最后决定什么是真相,什么是重要的,是紧急的,要解决的问题。

28、张一甲:像去年那种天天经常有模型迭代进展,动不动技术栈就要变了的行业发展情况,可能并不是人工智能走进我们生活当中一个比较健康的节奏和方式?
李彦宏:在最早期的时候这样做,有这样的现象和规律是应该的,因为刚开始出来确实太不成熟了,没法基于它做应用,如果两年、三年了,还这样,那整个生态其实是会比较乱。
现在,我们更应该把注意力放在闭环怎么走完,而不是不断解锁能力。大家有一点急功近利了,都在找所谓的超级应用,但是真正的应用,现在已经可能有几十万上百万的应用了,只不过不是移动互联网时代的超级应用。
张一甲:在你看来,无论是一个猛子使劲在基础能力上往前冲,还是一味期待非常酷炫的人尽皆知的超级应用,都不是一个正常的发展态势?
李彦宏:对,不是本质。你看蒸汽机的发明过程,也是经过了几十年后来出来热力学第二定律之类的。电力也是,电灯、发电厂,最后像流水线之类的,这些都是因为有了电以后,才演变出来的新的业态。

长期主义、理想主义和现实主义三者相结合
29、骆轶航:这两年以来,无论美国还是中国,无数科学家选择创业,在大厂或者AI公司里,教授和科学家真正应该扮演的角色是什么?驱动还是辅助?
李彦宏:我觉得科学家应该提供vision,他应该看得比工程师更远一些。这一轮大语言模型的爆发,背后的vision就是Scaling Law。有人看到了,只要加算力,只要用更多的数据来train模型,就会出现智能涌现。他是先有了这样的想法,才去做这些事的,这些事最终证明了这样的想法。之所以越来越多的大学教授创业或者加入更大的公司,是因为创业能够拿几亿美金,但在学校就只拿几百万美金的Research Grand(研究经费)。李飞飞讲全美所有大学的GPU加起来,训练不出一个GPT3.5。在那个环境中没办法去创新。但在大厂里,几万片甚至十万片的GPU已经出现了,在这么大的规模上去做,显然比别人更早地看到未来是什么样子。这是这些年技术发展的新特色,不光是要有想法,而是要把想法或者vision跟资源相结合,只有能够动用这么多资源的时候,才能证明想法到底是对还是错。
骆轶航(追问):但他们是不是应该更多参加到这个从科技到产品的进程中呢?
李彦宏:有些人感兴趣的是相对比较scienceoriented的东西,没问题,这非常有价值。而有些人更感兴趣的是,怎么在市场中找到一个创造价值的地方,我觉得也是需要的。这个世界就应该多样化,不同的人有不同的爱好,有不同的信仰,最终变成一个有意思的世界。

30、张一甲:2024年已经快到尾声了,如果展望明年,你觉得人工智能可能的下一个里程碑事件是什么?如果让你对未来做一个画像的话,你期待2025年会发生什么?
李彦宏:我觉的在各个层面都会有一些渐进性的变化,比如说基础模型的能力会提升,更多的应用会出来,尤其像多模态相关的,无论是基础能力也好,还是应用也好,可能会被更多的人所感受到。我们讲四层架构,在芯片、框架、模型、应用这四层,还都会有相应的进展,甚至我觉得进展会很快。有了那些东西之后,上面还能够长出来什么样的可能性,其实还是挺令人期待的。

31、骆轶航:下层在持续推,上层长得越来越快,应该这是一个比较好的形态?
李彦宏:也不光是快,而是我觉得要逐步聚焦了,现在各种各样的方向都在试,慢慢的人们会有感觉说,这个方向更有前景一点,那个方向要再等几年。我觉得2025年在这方面的清晰度会更好一些。

32、张一甲:你最期待发生什么?比如说今天如果您打开手机,看到关于人工智能的很多新闻,您脑海当中会有一个声音说,我很期待今天发生了一个什么样的事情,证明我们的判断是对的,或者给我们这个行业再来一个非常大的动能加持?
李彦宏:我们其实不是在做一个猜谜游戏,实际上是先有了一个vision,再去实现这个vision。如果你问我最期待的东西,我还是期待像秒哒这样的产品,它能够写越来越多的代码,能够解决越来越复杂的问题,让越来越多人不懂代码的人、能力没有那么强的人,具备金字塔尖那些人的能力,我觉得这是明年,也是更长期的技术理想。

33、骆轶航:Geoffrey Hinton得诺贝尔物理学奖的那一天,我们忍不住把一篇写Hinton差点加入百度的老文章翻出来重新发了一遍。然后Anthropic的创始人Dario Amodei在百度实习过。
李彦宏:他(DarioAmodei)是百度正式员工,Jim Fan在百度实习过。
骆轶航:对,Jim Fan在百度实习过,Dario Amodei是百度的正式员工,Andrew Ng(吴恩达)也曾经是百度非常重要的科学家。
李彦宏:对。
骆轶航百度从十年之前到现在,在全球的机器学习和人工智能领域的多个时间点上都扮演了一个非常有意思的角色。这个问题的延伸有两个:发散性的话,如果这些人现在都在百度,百度会是个什么样的公司?聚焦的话,很少有公司像百度这样,一家中国公司在全球AI发展的人才节点、资源节点和技术节点扮演过这么一个角色,百度未来还能不能再继续扮演这个角色?
李彦宏:其实这个事也蛮有意思。网上你们也看到了,像Geoffrey Hinton,他后来选择加入了Google,不是因为我们不愿意出更多的钱,而是他自己更愿意在美国呆着。但因为他没有来,我们还是想要真正的大咖能够加入百度,所以就找了吴恩达。吴恩达来的理由其实也比较简单,他当时在GoogleGoogle Brain(谷歌大脑),想买更多的GPUGoogle说不行,太贵了。我们说,你来随便买,他就来了。来了后,招来了Dario AmodeiDario Amodei来了之后说Jim Fan不错,我就招他来实习。
所以一代一代的人,就把优秀的人才能够吸引过来,当然这些人后来阴差阳错,又离开了百度,我觉得也没问题,人才的这种流动对整个行业是健康的。他找到他的下一站,对于百度来说也培养了一批非常优秀的人才。外界因为某一个人的离开会有报道,但是这个人如果在这儿呆着的话,就没有报道,并不是因为这个人不优秀。其实目前在百度内部,有很多很多非常优秀的人在做AI,只不过因为他们没有离开,所以外界不知道,没有报道。
所以对于我们来说,一方面好多公司的创始人是百度出去的,有不少互联网公司的CTO也是百度出去的,其实我很高兴,这意味着我们既给社会做了贡献,又树立了百度的技术品牌。今天一个校招生加入百度时会想,这个人是从百度出去的,这个人在百度做了什么事情。校招生会想在百度能获得什么样的学习成长机会,所以这对于我们吸引新的优秀人才是很好的事情。这些人反而是在百度能够踏踏实实做事,能够做出来东西的。我觉得更年轻一辈的,现在还没有出名的那些人,是我们最宝贵的财富。

34、张一甲:我是不是可以理解为,在今天这样一个逐渐强调落地应用的年代里,整个公司和行业往前发展,它并不是像当年一样,非常依赖个别的明星大牛、科学家去驱动,更像是实打实的扑在一线去摸索需求,去解决工程问题?
李彦宏:其实都需要,这些大牛我们需要他能够看到五年十年以后,很可能某一个方向特别有前途的。但是光看到不行,你得把它做出来,得匹配相应的资源,得有一大帮工程师。一开始做这个东西可能要100块钱,怎么把它变成一块钱就能做出来。一开始做推理要10个小时,怎么10分钟做出来,这些问题解决了,你的vision才能变成现实。
骆轶航:百度怎么在整个全球AI格局中,更加体现它的技术前瞻力?我们曾经体现过,现在体现真的比当时难,因为我们是一家中国公司,会有一些不公平的事情
李彦宏:总是有解法的。中国毕竟有14亿的人口,中国本身就是一个很大的市场,国人总体来讲对于先进技术其实是欢迎的,是愿意接受的。有了这样一个环境,我们总是可以做出很多创新的,只不过这个创新,也许不是从底层往上走,而是从最上层往下走,我认为一样可以走通。

35、张一甲:在我们今天这个节目的结尾,对我们所有在关注百度世界2024和关注人工智能方向的朋友们,你有没有什么总结、寄语给大家分享?
李彦宏:其实我还是想说,人工智能很像是一次新的工业革命,这意味着它不是三五年就结束,不是一两年就出现超级应用的过程,它更像是三五十年对于整个社会的方方面面一个非常彻底的重构。在这个过程当中,我们既需要耐心,又需要大的投入,同时需要不断地传播这种火种,让越来越多的人、组织和公司,能够理解这件事情对他们的意义,并且很好的利用这些新的技术能力,给自己的组织、自己的公司创造出来更多价值。
骆轶航:需要长期主义、理想主义和现实主义的三结合。
李彦宏:对,三者结合。