李彦宏：大模型幻觉基本消除，这是只靠想法就能赚钱时代

InfoQ

2024-11-12 15:39发布于北京InfoQ官方账号

整理｜褚杏娟、华卫

11 月 12 日，李彦宏在“应用来了”百度世界 2024 大会上发表了近一个小时左右的演讲，期间分享了百度在大模型应用上的观察和思考，同时展示了百度过去一年在大模型方面的成绩单，主要观点包括：

过去这 24 个月，AI 行业的最大变化是大模型基本消除了幻觉。李彦宏现场发布检索增强的文生图技术 iRAG，并表示其商业价值体现在无幻觉、超真实、没成本和立等可取。
AI 是真需求。李彦宏表示，AI 应用方向的两个方向分别是智能体和产业应用。
智能体是 AI 应用的最主流形态，即将迎来爆发点。李彦宏表示，智能体可能会变成 AI 原生时代，内容、信息和服务的新载体。他将智能体分为 4 种不同类型，包括公司类智能体，角色类智能体，工具类智能体和行业类智能体。
百度不是要推出一个“超级应用”，而是要打造数百万个“超级有用”的应用。
我们将迎来一个前所未有的只靠想法就能赚钱的时代。李彦宏现场发布无代码工具“秒哒”，并称之为“迄今为止人类历史上最复杂的多智能体协作工具”。

下面为演讲原文，我们在不改变原义基础上进行了删减：

今年我们把大会的主题定成“应用来了”，这代表了我们对大模型和生成式 AI 当下的认知和判断。

大模型火了将近两年，相关技术以前所未有的速度进行迭代和创新，从大公司到创业者到风险投资，各路人马大家都在寻找生成式 AI 时代基于大模型的超级应用。我们看到，这张图是由第三方研究机构最近发布的全球 AI 全景，基本展现了大模型和生成式 AI 爆发过程中，一浪一浪叠加的状态。

首先是 OpenAI 发布了 ChatGPT，后来百度发布文心一言，紧接着就是谷歌发布了 Bard，后来改名为 Gemini；接着，以英伟达为代表的芯片厂商和微软为代表的云厂商吃到红利；然后我们也看到了开源模型的奋起直追。与此同时，各类应用层的创业公司开始获得投资，一些传统的软件厂商也开始用 AI 重构自己的产品。

然而客观地讲，大家期待的超级应用还没有出现，甚至有人开始问，过去这 24 个月，这种全球性的大模型狂热，究竟是一场新的技术革命，还是新一轮泡沫？作为中国人工智能的扛旗者，我想我们是有资格回答这个问题的。

大家请看：这张图这是文心大模型的日均调用量变化曲线图，到今天这个数字已经超过了 15 亿，每天调用 15 亿。这是一条非常陡峭的增长曲线，在过去 18 个月当中，中国的大模型应用爆发可以用这张图或者这个曲线来代表。说实话，这个增速是超出了我的预期的。

我记得今年 5 月份，就是 6 个月之前，当我们的人均调用量达到两亿的时候，我跟我的高管们讨论大模型的未来，讨论怎么就叫成了。我当时说，如果我们的调用量日均的 API 调用量，大模型 API 调用量，一年之内如果涨 10 倍，也就是从 2 亿涨到 20 亿，一年时间涨 10 倍，我认为就成了，就说明大家是真需要。现在仅仅半年过去，我们就比较接近这个数字了，势头非常猛。

文心 iRAG 亮相，

李彦宏：大模型基本消除幻觉

调用量涨这么快，背后是文心大模型不遗余力的升级进化、降本提速的过程，也是我们紧贴客户需求，不断发现问题、解决问题的过程。去年三月，文心一言发布的时候，我们说百度大模型的特色是知识增强、检索增强。后来我们发现，检索增强并不是百度特色，而是逐步成为了行业的共识。 检索增强的手段，英文叫 RAG，就是 Retrieval-augmented Generation。

当然，我们是做搜索起家，这方面我们理应做得最好。这个手段的意义在哪呢？就是让大模型基本消除了幻觉。你要想基于大模型开发应用，消除幻觉是必须的，如果这个模型总是一本正经的胡说八道，就不会有人信你，就不会有应用。有人说我用模型来写小说，有点幻觉可能更有意思，更能引人入胜。不对！即使是文学创作，也需要故事前后保持一致，否则就不是智能而是智障了！

所以如果你要问我，过去这 24 个月，对行业而言，最大的变化是什么？那我的回答一定是，大模型基本消除了幻觉，它回答问题的准确性大大地提升了，这让 AI 从“一本正经的胡说八道”，变得可用、可被信赖。我们知道，大模型是一个概率模型，生成的内容是有不确定性的。但是当我们采用 RAG 技术后，大模型会利用检索到的信息来指导文本或答案的生成，从而极大地提高了内容的质量和准确性。

今天，文字层面的 RAG 已经做得很好了，但是图像等多模态内容和 RAG 的结合还不够。

大家请看这张图（下图），这是我们用开源模型生成的一张北京天坛的图片，看上去确实有点像天坛，但你总觉得哪儿不对。告诉大家，真正的天坛长这个样字，是三层，但是模型生成的是四层，这是文生图比较典型的幻觉现象。这种幻觉现象，今天仍然很普遍。所以，今天的多模态大模型没有什么成规模的应用出来，就是幻觉没有解决，至少没有像文生文 RAG 解决得那么好。

（左：其他模型，右：百度）

今年年初，我们决定要解决这个问题。注意，就是在整个中文互联网都为 Sora 而“捶胸顿足、上吐下泻”的时候，我们决定解决图像生成的幻觉问题。这个问题看起来更简单、甚至更枯燥，但是不解决就不会有应用。我们开发了一项颠覆性的技术叫做 iRAG，就是 image based RAG，检索增强的文生图技术。

之前，完全基于大语言模型的文生图系统，生成的图片常常是“一眼假”，甚至逻辑不合常理。百度的 iRAG，将百度搜索的亿级图片资源跟强大的基础模型能力进行结合，这样就可以生成各种超真实的图片，整体效果远远超过文生图的原生系统，去掉了机器味儿。

让我们看一下这个案例，提示词是：画一张大众揽巡汽车飞越长城的图片，写实风格。

大家看，这张图片中的汽车跟照片一样真实，无论是车型还是车标都没有错误或者变形，它跟长城这个背景的融合度也非常高。这就是基于 iRAG 技术创作出来的一张图片，它的内容元素、画面氛围都非常真实，逼近实拍的海报，但实拍你的车是飞不起来的，就像是 P 上去的一样。

当然，你还可以让 AI 生成这辆汽车在荒野上、城市中，在各种各样真实场景的图片。随着 AI 生成图片的可用性大大提高，它的应用空间也随即打开了。比如在品牌宣传场景，以前拍这样一组海报动辄需要一二十万，甚至大几十万，但是现在这种创作的成本接近于 0。

简单说来，iRAG 的商业价值体现在：无幻觉、超真实、没成本，而且立等可取。试想一下，如果大众的海报生成的车型长得像丰田，那可就糟心了。

除了特定的物品，我们还可以生成特定人物跟任意场景的背景结合的照片。我们以爱因斯坦为例，生成一张他和天坛打卡的合影。大家看是不是很像，这完全是利用 iRAG 技术生成的。

我们用同样的提示词，用一些开源模型生成了几张，大家可以做一下比较。有的长得根本不像爱因斯坦，唯一一个长得像爱因斯坦的，那背景大家一看，也不是天坛。

可以说在全球范围内，百度的 iRAG 能力都是最领先的。我们还可以通过提示词，让爱因斯坦游遍全世界，比如悉尼歌剧院、复活节岛巨石阵、长城、鸟巢等等，鸟巢显然是在爱因斯坦去世后才建造的。

作为一项基础技术，iRAG 在很多领域都有着很好的应用空间。比如影视作品、漫画作品、连续画本、海报制作等，AI 生图都可以大幅降低大家的创作成本。

智能体即将迎来爆发点

今天，基础模型能力就绪，我们即将迎来 AI 应用的群星闪耀时刻。每一个应用都是一颗星，每一个应用都将成为改变世界的力量。那么，AI 应用从哪里来？到哪里去？

下面，我就讲讲两个大的 AI 应用方向：一个是智能体，另一个是产业应用。

我们认为，智能体是 AI 应用的最主流形态，即将迎来它的爆发点。今天，全球所有顶尖科技公司都很关注智能体，但像百度这样把智能体作为最重要战略方向的并不多。我认为，做智能体很像在 PC 时代做网站，或者是移动时代做自媒体账号。不同之处是智能体更像人、更智能，更像你的销售、你的客服、你的助理。

智能体可能会变成 AI 原生时代，内容、信息和服务的新载体。为什么这么说？一方面，做智能体的门槛足够低，谁都能上手，在百度的文心智能体平台上，甚至我们看到有 11 岁的小学生在创造智能体，然后通过搜索和其他渠道分发出去。另一方面，智能体的天花板又足够得高，可以做出功能非常强大的应用。多个智能体的协作，还可以解决更加复杂的问题。

下面我就给大家展示一下 4 种不同类型的智能体，包括公司类智能体，角色类智能体，工具类智能体和行业类智能体。

我们首先看第一类：公司类智能体。它就相当于 AI 时代的公司官网。传统官网具有的那些能力，比如公司介绍、产品图片和参数展示、线下门店位置等等，公司类智能体都有，而传统网站没有的主动推荐、及时响应和一对一服务能力，公司智能体也有。

我们以比亚迪的智能体为例与一个传统官网做个比较：

在百度搜索“比亚迪”就能直接唤起它的官方智能体。点击进入，它会先给你一段比亚迪品牌的简短介绍，这就类似于传统的官网。然后，你让它推荐一台性能均衡的车型。传统的官网不知道什么是性能均衡，所以没法给你推荐，而有了大模型理解能力的智能体，就可以很好地做出筛选、给出建议，并且展示产品的图片。

当你想比较一下看哪个值得买的时候，传统官网上要花费比较多时间，你得在不同商品详情页之间来回切换，非常麻烦。而智能体可以直接把多个车型的动力类型、车身尺寸、续航、加速性能放在一起并拉出表格，非常直观。如果你想进一步到线下门店去试驾怎么办？智能体可以直接调用地图帮你一键导航，直达目的地。

另外，还有一点是智能体与传统官网很不一样的，就是对最新信息或者最个性化问题的回答。传统的官网对外界市场信息变化往往不敏感，客服人员对于个性化的问题也难以给出令人满意的回答，所以通常只能做记录，再电话回访。而智能体可以利用大模型的理解、生成、逻辑、记忆四大能力和检索增强能力，快速从网上获取最新、最准确的消息，并在一秒钟之内就给出一个令人满意的答案。

不仅是比亚迪，像联想、沙宣、洋河这些企业，现在都已经拥有了自己的官方智能体。比起传统的官网，智能体既是你的品牌顾问又是你的金牌销售和客服，既专业又贴心，一对一的服务，大幅地提升了互动营销的效率。比亚迪的官方智能体上线后，销售线索转化率提升了 119%。联想 AIPC 智能体在 9 月份的互动率提升了 89%，销售线索转化率提升了 80%。

未来，公司官方智能体很可能会替代官网，成为最直接的面向消费者的界面。

我们再来看第二类：角色智能体。提到角色，大家很容易想到数字人。数字人有自己的人设、自己的知识库，这都是典型的智能体基本要素。所以当智能体机制和多模态进行有效结合时，它就变成了一个有形象、有动作，并且动作可以跟语言可以匹配起来的数字人。

之前的数字人，短板是显而易见的。它们说话的声音、肢体动作、口型都非常机械、呆板。但是，在大模型加持下，数字人逐渐变成了高度拟人化的智能体，更聪明、有情感、有态度。他们可能是教育辅导老师，留学顾问，也可能是心理咨询师，私人健身教练等等。

今天，你在百度搜索“教育辅导”这样的关键字，在搜索结果页中，就能看到这些数字人。他们不仅比我们以前看到的数字人更加自然、动作幅度更大，甚至在直播场景下，还可以说着说着在合适的时机停下，回复网友现场提出的问题。这需要大量的数据积累和直播互动规律的总结提炼。以前，我们不具备这样的能力。今天的数字人直播，很多情况下转化率已经超过了真人。

数字人的好处在于它的脚本完全是 AI 生成的。对于很多非常详细的数据，真人在直播的时候是记不住的，数字人完全没有问题。所以他的知识量，他的实际反应能力，很多时候已经超越了普通真人了。

我们非常相信，真人与虚拟人的交互，将创造巨大的产业价值和社会价值。 这里的虚拟人，可能就是现实生活中一位名师的数字分身，也可能是一位名医、王牌律师和金牌销售的数字分身，而你从来没有像现在这样离他们如此之近。

我要讲的第三类智能体是工具类。工具类智能体其实是个热门赛道，笔灵 AI 写作、canva 设计助手、logo 生成器等都是典型的工具智能体。

百度文库和网盘联合开发了“自由画布”。

我们以行业分析师写研究报告作为例子，来给大家介绍一下自由画布。在很多人的认知中，行研报告就是图文结合的内容，但今天它可以是另一种形态，有传统的图文、表格，也有像发布会视频、电话会录音，组成一种更全的多模态报告。这在自由画布上，可以很好地实现。

我们打开百度 APP，搜索“智能写作”等关键词，就可以找到“自由画布”智能体，它可以帮你完成从找资料、到编辑、再到生成和分享的全部任务。不管你是内容的生产者还是消费者，都再也不用关心文件的格式是什么、我的手机或电脑有没有相关的应用、内存还够不够等等这些琐事了。

自由画布就是一个由文心多模态大模型加持的万能白板，它能很好地激发人们的无限灵感和创造力。因为自由画布，每个孩子都能成为故事的主角。因为自由画布，每个人都可以是漫画家、成为短视频导演。而且，这不是期货，而是立即可用的现货，是真正服务于创造的新质生产力！我们很快会正式上线。

第四类智能体，我们称之为“行业智能体”，比如法律、医疗健康、金融、体育、旅行等等领域，都涌现出很多有用的智能体。

我们来看一个法律行业的智能体 ——法行宝。每个人工作生活中，都会遇到各类法律相关的问题，但不是每个人都能第一时间找到专业的律师来帮自己支招。这时，法行宝就很有用了。它是很受用户欢迎的智能体，在百度的平台上，已经回答了超过 1660 万个问题。

我们来看看它具体能做什么？

“我有一个朋友昨天被车撞了，现在躺在医院花了很多钱，报警后，警察说是对方全责，但对方不给赔偿，该怎么办？”

针对这个情况，法行宝给出了四个步骤的指导，先是保留相关证据，请求交管部门去调解，如果调解失败，可以再提起民事诉讼、申请法院的强制执行。可以继续咨询：医生说他还有三个月才能正常走路，交通事故赔偿怎么计算？这时，它会提供一个赔偿计算器，要求你补充关于赔偿责任、事故时间地点、伤者工作收入、伤残认定等详细信息，最后给出了一个事故造成的总损失和赔偿金计算。

如果想靠起诉状来拿回这笔赔偿金，法行宝还可以帮你写一封起诉状。如果你还想找真正的名牌律师咨询更加复杂的私人问题，法行宝还能够按照不同领域给你推荐知名律师。上线半年多以来，法行宝为 940 万多人提供了高效、可信赖的法律服务，成为了每个普通人专属的 AI 免费律师。

目前，文心智能体平台上，已经吸引了 15 万家企业和 80 多万名开发者参与，覆盖的应用场景非常非常多。

上面显示的就是文心智能体平台的 TOP100 智能体，是我们基于智能体的分发量、平均对话轮次、用户喜爱度等指标综合遴选出来的。有角色类的，像农民院士智能体；有工具类、行业类的智能体，更有职场、情感、娱乐等类型的智能体。

大模型的产业应用

前面我讲了智能体。下面我再讲一下大模型的产业应用。

大模型如何在产业落地？如何为千行百业的企业创造增量价值？这是我们一直在探索的问题。过去这一年半左右，我们看到在金融、能源、教育、招聘、公共服务等各个领域，大模型跟场景结合后，在降本和增效两个方面都取得了实实在在的成果。

百度智能云是我们构建智能产业生态的主要依托。目前在百度智能云的千帆大模型平台上，我们已经累计帮助用户精调了 3.3 万个大模型，开发出了 77 万个企业级应用，百度智能云已经拥有中国最大的大模型产业落地规模，一半以上的央国企以及很多很多的民营企业，都在联合百度智能云进行 AI 创新。

我们来看以下两个案例。

百度和百胜一直有良好合作，最早是在“门店选址评估”方面，我们帮助百胜完成了新增数千家门店的选址，大幅提升了选址质量和效率。在客服领域，我们提供了客服产品和大模型能力，服务百胜旗下多个品牌，尤其是解决了原来的客服机器人，难以识别客户真实意图、没法关联上下文的问题。

目前，我们的客服应用和解决方案，已经覆盖了百胜全线业务，大模型每天调用量的峰值达到数百万，客服机器人的“问题解决率”提升到了 90%。

在大模型时代，百胜还需要建设一个安全可信的大模型服务专区，来满足内部各品牌、各业务线的 AIGC 应用需求。因此，我们提供了千帆平台、文心 Speed 模型、基础云算力服务等给百胜，构建了完善优质的大模型底座能力，帮助百胜更加便捷地开发和部署 AI 应用。

除此之外，我们正在和百胜一起把 ASR、TTS、大模型和数字人的技术结合起来，共同验证在点餐屏上打造大模型点餐的能力。未来，我们还将继续合作，共同探索企业数字化、智能化转型等各种各样的可能性。

下个例子是互联网行业的代表。智联招聘是国内领先的招聘平台。招聘平台最主要的工作就是把合适的人匹配到合适的岗位上。过去这个工作大量地依靠人工来完成，人工地给岗位打标签、筛选海量的简历，、分析求职者对话，不仅费时费力，效果也难以保证，经常会有遗漏和错配。

百度和智联招聘合作，利用大模型重构了这个核心环节。通过自然语言对话，结合岗位的描述，迅速地为求职者和岗位画出精准的匹配画像，并且自动回答有关工作时长、薪资福利、工作地点这些求职者关心的问题，甚至进一步帮助安排面试。

目前，百度和智联招聘合作，已经成功沉淀出一系列提示词模板，并在数万条实际数据中得到了验证，人岗匹配的平均准确率高达 93%，而大模型使用的成本却下降了约 90%，为招聘行业带来了全新变革。让每一位求职者都能更轻松地找到心仪工作，让每一家企业都能更高效地获得所需人才。

今天，我在这里发布基于大模型的 100 大产业应用，它涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等众多行业，百度希望与更多合作伙伴和客户一起推动智能产业生态的建设，共同来加速国家“人工智能 +”行动计划的落地。

发布这 100 大产业应用，其实也代表我们的认知和态度。百度不是要推出一个“超级应用”，而是要不断地帮助更多人、更多企业打造出数百万“超级有用”的应用。

无代码工具“秒哒”发布，

只靠想法就能赚钱

今天，我们的确有条件让一行代码都看不懂的人具备程序员的能力，有让任何一个想法都能迅速地、低成本地变为现实的能力。当然，这需要工具，这个工具就是今天我为大家带来的 One More Thing——秒哒！

一个不需要写代码就能够实现任意想法的软件，一个由大模型和智能体组成的全新的软件，我认为它是“迄今为止人类历史上最复杂的多智能体协作工具”，它包括无代码编程、多智能体协作以及规模化地调用各种的工具等能力。

秒哒是跟任何辅助代码生成工具是完全不一样的，因为它根本不需要你能看懂代码，所以看直播的朋友们，如果你是程序员，那你现在可以不看了，这个软件是给非程序员来用的。

我用一个例子来给大家展示一下秒哒的能力：

假设我们要为萝卜快跑开个新技术发布会。我需要打造一个活动邀请系统，把邀请函分享给其他人，并且收集他们的想法和反馈。首先，上传了一个有大会时间地点主题的文件给秒哒。

接收到指令后，出现了 0 号智能体，就是小组长。它是整个智能体团队的核心，负责规划调度。它将这个任务拆解成了需求确定、内容生产、工程开发三个步骤，并且它会召唤各个智能体来协作完成任务。

首先召唤的是 1 号智能体，是策划智能体，负责活动邀请函的策划、设计解决方案。1 号智能体又将这个任务拆分成：核心需求、内容结构、开发需求、数据收集四个子任务。接下来，2 号智能体就被召唤出来了，即小编智能体，主要编辑邀请函中的所有文字和媒体内容。然后，3 号智能体出场，它是程序员智能体，负责写代码，来制作和部署网页，你完全不需要看懂代码侧的东西，你只要看得懂人话就行了。等它写完后，4 号智能体质检员出场了，它发现了一个 bug，所以把程序员智能体再叫回来，重新写、重新改代码，质检员智能体会利用反思能力，运行测试代码，看看代码是不是跑得通。

邀请函自动生成好了，但我觉得这个画风不够好看，想再换一个更有科技感的。输入想法后，程序员智能体会再写一次代码，给出一个新版本，这次换成了一个更有科技感的色调，有邀请函、会议日程，最后还附上了参会报名的界面，通过调用地图的 API，嘉宾就可以一键导航到达会场。最后，可以在后台看到，这条报名信息已经在统计表格中了。这样一个发布会的邀请系统，从你开始到最后结束，只需要 3 分钟，用户不用写一行代码，就可以完成。

整个过程体现了整个过程体现了秒哒的三个特性：无代码编程、多智能体协作和多工具调用。无代码编程是由大模型直接生成代码，不需要人写一行代码，所以门槛大大降低了，每个人都可以去做，每个人都可上手；多智能体协作是基于文心大模型思考、规划等能力，实现对不同类型智能体的调度、编排，这个任务共有 5 个智能体协作完成；多工具调用，像刚才例子中调用了三个工具：网页检索工具、iRAG 和地图 API 调用。

除了上面展示的邀请系统，秒哒还可以做任意场景下的各种应用，应用的复杂度也会随着我们技术的提升不断提升。最早开始的时候，它只能做一些比较简单的编程，比如说两三百行代码，以后随着基础模型能力提升，以及秒哒本身技术能力的演进，它就可以做越来越多、越来越复杂的事情。

这意味着，你不需要去招募项目经理、设计人员、开发人员、测试人员等等，自己就可以指挥多个智能体来协同完成任务。 也就是说，只要有想法，你就可以心想事成，我们将迎来一个前所未有的只靠想法就能赚钱的时代。

我想，AI 之所以被称为产业革命级的机会，就是因为它给社会经济带来了生产力的无限扩张。秒哒让每一个人都能具备程序员的能力，会说话就能做出应用来，它对于人类工作效率的提升怎么说都不为过。现在你就可以去排队预约，我们明年第一季度发布秒哒，大家就可以试用了。

今天，我们用大约一个小时的时间，回顾了过去 24 个月，全球生成式 AI 变革带来的应用大爆发，也发布了文心 iRAG 和无代码秒哒两大技术，展示了智能体、产业应用两大应用方向的案例。可以看出，AI 应用的时代是真的来了！

当然，在人类信息技术变革的不同历史时期，应用出现的的样貌也不一样：在 PC 时期，它是一个个的软件和网站；在移动时期，它是一个个的 APP 和被关注的账号；在 AI 时代，应用最主要的形态就是智能体。随着大模型技术和能力的指数级跃迁，自然语言成为了这个时代最重要的编程语言。我们每一个人都能动手创造一个属于自己、也属于他人的 AI 应用，或者智能体。

我是软件工程师出身，国外有一种说法叫“软件吞噬世界”。但我认为，这个世界不应该被吞噬，而应该被创造。AI 时代，应用创造世界。所以请大家和我一起见证：AI applications creating the world。