ChatGPT催生大模型热潮将近两年,大模型的能力持续提升,调用价格持续下降,基于大模型开发应用的探索进入新阶段的同时,也产生新的焦虑:大模型究竟是一场新的技术革命,还是新一轮泡沫?什么样的应用是基于大模型能够产生实际价值的?
11月12日,于上海世博中心举办的百度世界2024大会上,百度创始人李彦宏发表了《应用来了》的主题演讲,且发布了两大赋能应用的AI技术检索增强的文生图技术(iRAG)和无代码工具“秒哒”。
演讲中,李彦宏拿出了文心大模型的日均调用量变化曲线,巧妙地回答了“是否为泡沫”的疑问。——截至目前文心大模型日调用量达15亿,半年增长率达7.5倍,相较一年前首次披露的5000万次,增长约30倍——
与此同时,也通过上述发布的两项AI新技术以及相应的场景探索,回答了行业的应用焦虑。李彦宏明确表示,百度不是要推出一个‘超级应用’,而是要不断地帮助更多人、更多企业打造出数百万‘超级有用’的应用。
他也提到,智能体是AI应用最主流的形态,即将迎来它的爆发点……随着大模型技术和能力的指数级跃迁,自然语言将成为这个时代最重要的编程语言,我们每一个人都能动手创造一个属于自己、也属于他人的AI应用,或者智能体。
iRAG打开AI应用空间
中国科学院院士、清华大学人工智能研究院名誉院长张钹此前在探讨生成式人工智能的核心优势及其可能带来的挑战时指出,当前大模型技术已呈现出三大能力,即强大的语言生成能力,强大的自然语言对话能力,和强大的迁移能力。
但优势之外也呈现出一大缺陷,那就是大模型的幻觉问题。
正因具备上述优势与缺陷,国内大模型应用落地都格外重视这些因素,在李彦宏看来,基础模型将来能够具备诺奖获得者的智力水平,那是极大的创造力迸发,这确实是努力方向,但与此同时,它的这种副作用,就是幻觉,是要能够控制的。”
而就幻觉问题的解决,行业的共识是RAG(Retrieval-Augmented Generation),即检索增强生成技术。顾名思义,该技术使大模型可以连接到外部信息库,利用从外部来源获取的信息指导输出,减少模型本身的幻觉。
回顾过去两年,RAG从百度特色,逐渐发展成为行业共识。当前文字层面的RAG已经做得很好,基本让大模型消除了幻觉,内容输出从“一本正经的胡说八道”,变得可用、可被信赖。
但是,图像等多模态方面,完全基于大语言模型的文生图系统还是存在较严重的幻觉,生成的图片也是“一眼假”,甚至逻辑不合常理。
例如,大会上展示的一张用开源大模型生成的北京天坛图片,看上去确实有点像天坛,但却是错把天坛的三层生成了四层。类似地,针对长城、东方明珠、金字塔、爱因斯坦、贝多芬等特定地点、人物,张冠李戴的幻觉现象普遍存在。
但是,从应用往下看,需要AI生出来的图片保持原状,需要特别准确的多模态能力,“一个公司的logo不能错,不能有变形,颜色不能有失真,多模态要想进入真正实用阶段,也得有准确性、可控性,应用空间才能打开。”李彦宏表示。
正是基于这一认知,百度并未在Sora火爆时盲目跟风,而是选择是着手解决走向多模态过程中遇到的“简单”障碍。
当然,这并不意味百度不做多模态。恰恰相反,百度相关应用场景的多模态能力是是非常强的。在大会当天下午的媒体专访中,李彦宏表示,“所以外界有一种误解,百度不做Sora,就等于是百度不做多模态。我们非常非常看好多模态,也在多模态上有非常长期的投入,在真正有应用场景的地方,我们的多模态能力是非常强的。”
只是,先把障碍搬走,让应用能跑起来,是百度的思路。
正如李彦宏提及,和美国很多公司做法很不一样,他们一直都是梦想做出颠覆性技术,要多少年之内做成什么样子,应用更好像是个副产品。而我们更多希望尽早接触场景和应用,看在这个过程当中,到底遇到了什么问题,大家遇到最多的问题,就是我们优先解决的问题。
基于检索增强的文生图技术(iRAG),正是百度为了解决多模态幻觉问题而开发的重要基础技术。
iRAG将百度搜索的亿级图片资源跟强大的基础模型能力相结合,去除了机器味,生成各种超真实的图片。
就具体效果而言,以“画一张大众揽巡汽车飞越长城的图片,写实风格”作为提示词,生成的图片放大来看,无论是这款特定型号汽车的车型车标、还是作为背景的长城,均未出现错误或变形的幻觉问题,二者的融合度较高。
可见,iRAG整体效果远远超过文生图的原生系统,而这也AI生成图片具备了更高的应用潜力,尤其是在影视作品、漫画作品、连续画本、海报制作等创作场景,iRAG都具有非常大的价值。
打造“超级有用”的应用
iRAG打开AI应用空间,那么什么样的应用是基于大模型能够产生实际价值的?
“智能体是AI应用最主流的形态。”李彦宏认为,不同历史时期的应用样貌不一样,PC时代应用是一个又一个的网站,移动时代应用是一个又一个的APP,AI时代应用是一个又一个的智能体。
这一判断全球企业家和AI专家的看法不谋而合。
去年 11 月,比尔·盖茨在其个人网站上撰文表示:“智能体不仅会改变我们与计算机的互动方式,还将颠覆软件行业,带来自图形用户界面诞生以来最大的计算革命。”他称智能体将会像过去的Android、iOS和Windows一样,成为下一个平台。
今年 3 月,斯坦福大学教授吴恩达指出,他们在研究中基于 GPT-3.5 构建的智能体工作流在应用中表现可以比 GPT-4 要好,基于 GPT-4 构建的智能体工作流效果当然还可以更好。他认为,AI 智能体将在2024 年推动 AI 的大规模进步,甚至可能超过下一代基础模型所带来的影响。
广义来说,智能体为智能且自主的决策者。智能体也并非新事物,比如此前可以自动识别垃圾邮件或重要邮件且进行分类的电子邮件过滤器,就是一种简单的智能体,只是它们只能在特定场景下,按照开发者提前设定好的规则完成任务。
大模型给智能体带来了新的可能,一种更好的、满足过去满足不了的需求的新形态。
以百度文库和百度网盘联合打造的工具类智能体“自由画布”为例,用户可以在一块类似“画布”的界面上自由拖拽文档、音视频等素材,即刻生成多模态内容。
这无疑是对百度文库的重构,正如李彦宏所言,自由画布“让人们能够更加方便地创作内容,或者也不仅仅是创作,是communicate your ideas,心里怎么想的,怎么能够把它更方便,更准确地表达出来。”
凡此种种不胜枚举。
目前,文心智能体平台已吸引了15万家企业和80万名开发者,限于篇幅再次不再详细介绍。但言而总之,这些智能体基于需求精准赋能,再加上其本身就是一个几乎可以是放之四海而皆准的基于大模型的应用,爆发或许只是时间问题。
当然,“爆发”意味着参与者众,但现实程序员在整个人群中也是少数群体,如何让普通人也能参与其中?
百度的思路是,将“门槛”降的足够低的,让原来不是程序员的人,也能具备程序员的能力。“当几亿、十几亿人都具备这种能力的时候,它对于创造力的爆发,是辅助代码生成工具没法比的。那些工具还是让金字塔塔尖的人更加powerful,而我们希望金字塔中间层和底层的人,拥有金字塔塔尖这些人的能力,这个意义更大。”李彦宏说。
在百度世界2024上,李彦宏展示出了百度的努力成果——无代码工具“秒哒”。
秒哒由大模型和智能体组成,其具有无代码编程、多智能体协作和多工具调用三大特性,可以让用户在任意场景下创建各种应用,指挥多个智能体来协同完成任务。
有了这款无代码工具,用户通过自然语言交互,指挥多个智能体来协同完成任务,就可以完成一整套系统的搭建。意味着,即便你不是程序员,很多相对没有那么复杂的应用,在过去看来还不是那么容易的事儿,花几分钟时间就能做出来。
有投入,更有信仰
显然,这也并非一蹴而就的。
不过在李彦宏看来,“它是非常有希望的,我今天能够写两百行代码,一年以后可能能写两千行代码,再过三年可以写两万行代码,这个能力会逐步发展出来,那它会让更多人的创造性给激发出来。”
可见李彦宏对于“秒哒”未来确定性的自信,而这种自信源自其自身乃至百度对于AI的信仰。
大会当日下午的媒体专访中,李彦宏表示,百度信AI,不是今天才信,也不是两年前信,是十几年前就信这个东西……我们真正的legacy就是我信AI,一旦你把这个东西当成legacy,这些东西其实就都很好解释,因为就是在做我们多年前一直想做的事。”
百度也一直进行长时间、高强度的投入,践行它们这种“做想做的事”的技术信仰。
2012年,李彦宏就带领百度进入人工智能领域,且曾尝试吸纳了全球最顶尖的Geoff Hinton团队,虽然最终因Hinton希望留在美国而未能如愿,但开启了百度压强式布局AI的道路;2013 年,百度在建立深度学习研究院……自此百度在AI领域一直投入至今,10余年时间投入超过1700亿。
在此期间,百度用 AI 技术改造搜索等原有业务、开辟了无人驾驶等业务的同时,也通过云计算平台把 AI 技术对外开放的同时,也敢于接纳全球AI人才,涉及到的人包括2024物理诺奖得主辛顿、谷歌大脑创始人吴恩达、Anthropic首席执行官Dario Amodei等。
正是技术、资金、人才等诸多方面的长时间、高强度投入,才使得百度取得如此成果。根据沙利文发布报告《2024年全球AI生态全景概览》,在全球AI生态全景中,百度与谷歌、OpenAI位于AI-Native Giant 同一象限。
而以上种种,也无不体现着李彦宏将长期主义、理想主义和现实主义相结合,带领百度不断攀登AI的高峰。正如李彦宏所说,“人工智能很像是一次新的工业革命,这意味着它不是三五年就结束,不是一两年就出现“超级应用”的过程,它更像是三五十年对于整个社会的方方面面一个非常彻底的重构。在这个过程当中,我们既需要耐心,又需要大的投入,同时需要不断地传播这种火种,让越来越多的人、组织和公司,能够理解这件事情对他们的意义,并且很好的利用这些新的技术能力,给自己的组织、自己的公司创造出来更多价值。”