文/纪德
编辑/子夜
AI与内容工具结合,早已不是新鲜事。
从漫画、海报制作到影视等应用领域,一系列AI产品崛起。大模型对于创作模式和生产方式的颠覆不断发生,作家、自媒体人、电影人等多类型创作者,对此深有体会。
但当下AI产业仍缺乏一个足以激发需求的超级应用。为了让技术落地,玩家不断寻找着理想的落地场景,以百度、Open AI为代表的企业,开始将AI大模型应用到一个可以自由操作的自由画布中。
在百度世界2024大会上,该产品被命名为“自由画布”,首次正式亮相。介绍时,李彦宏特别强调,“因为自由画布,每个人都可以成为漫画家、短视频导演。这不是期货,而是立即可用的现货,是真正服务于创造的新质生产力!”
与其他大模型的发展理念不同,百度用AI重塑自身业务时,采用了互相支撑、融合的开发模式,自由画布便是文库和网盘两大业务联合推出的产品。
从用户体验角度,自由画布重塑了内容创作的底层逻辑。AI生成对文字、图片、音视频内容的影响,往往体现在内容制作中一个个小的环节中,但自由画布不仅容纳了所有可以提升效率、激发创意的生产环节,还颠覆了内容创作的线性逻辑,让内容的输入、编辑和修改都变得更自由。
发布会上,李彦宏还提及了AI生图的幻觉问题。近年来,AI创作产品的内容生成质量有限,成为内容创作者及行业面临的痛点。
李彦宏认为,“过去这24个月,AI行业的最大变化是大模型基本消除了幻觉。”其中,百度在今年初自研了检索增强的文生图技术iRAG,能够为用户提供真实、准确性高、无模型幻觉的生成图片。
无论是推出自由画布,还是自研iRAG技术,百度代表的是数亿用户的高频使用需求,但更值得关注的问题是:玩家使劲搞创新,广大消费者又是否愿意为之买单。
1、一张自由操作的AI画布,能否满足数亿创作者的所有想象?
近年来,一种全新、直观、可视的用户交互界面——自由画布,颠覆了人们对工作方式的想象和体验。
在国内,百度是抢先拥抱可视性画布的先行者;在海外,Canvas火爆,以ChatGPT、OpenAI为代表的玩家正在不断完善体验。
这个新玩意,究竟怎么用?相比于一张普通画布,自由画布的特殊性在于,它可以适配作家、自媒体人、教师、白领等几乎所有人群的工作需求,并通过AI、大数据等技术,在“一拖一圈”之间,赋予工作方式的智能化。
在模拟小红书博主撰写旅游攻略内容时,用户可以借助百度自由画布轻松完成内容的输入:只需直接拖入素材,如文本、图片或视频等人们日常接触的多达100多种格式的内容,都可以直接呈现在画布上。
这种不受文件类型限制的自由输入方式,简化了复杂繁琐的格式转换过程,极大程度上减少了时间成本。
完成内容输入后,用户则将进入编辑环节。当用户提出撰写文稿、设计排版或生成视频等需求时,往往只需要圈中一块内容,再按下对应的功能按钮,就能完成一次高效、高质量的创作。
生成出一个大圣穿越到现代探险的故事
自由画布的交互方式,自由而非线性,机动而非死板。大多用户已经习惯了AI创作中略显僵硬的批量生产,但自由画布拥有高度的个性化编辑。
用户修改内容时,瞬间变身一位“指挥家”,对局部内容进行轻松选择和调用,快速完成文案、图片的微调,实现“指哪用哪,指哪改哪”。
大多数内容创作者日常面临高频次的修改工作、多轮的内容迭代,自由画布带来了更动感和自由的交互,增强了用户的参与感和内容的个性化,从而使内容创作者可以得到独一无二的作品。
自由画布不仅在内容输入和编辑环节,拥有强大的协同能力,对于内容分享的体验,也极其重视。
无论是分享,还是查看和二次编辑,用户可以仅通过一个链接完成。其中,二次编辑带来的不同体验尤为突出。
传统的内容导出,一旦出错无法更正,重新发布的代价高,但很多时候,用户还会有再次编辑的需求,自由画布的二次编辑解决了用户的痛点。
数年以来,AI技术对于内容创作领域不断产生影响,改进了现有产品或服务。百度自由画布,利用新技术满足了内容创作者对灵活、高效服务的需求,甚至让每个人都能无门槛地涉足更多类型内容的制作中。
自由画布,不仅颠覆了传统的内容生产工具,也超越了现有的AI创作工具。
它是一个全新的生产力平台,通过将Word、PPT、Excel等常见的办公工具,放到一张自由画布上,其成为一个涵盖Office全家桶+Canvas的产品,不仅打破用户苦恼已久的孤岛问题,也将改变用户的日常工作流程。
2、AI生图进入“超真实”时代,iRAG究竟有多强?
在生成式AI时代,AIGC的应用范围,从文本、图片延伸至视频场景。工作过程中,一句话的输入、一次鼠标的点击,就能完成一次创作。
然而,真正的挑战在于,用户越来越不习惯于那股“AI味”,甚至是AI幻觉。
在大会上,李彦宏展示了一张北京天坛的生成照片——真正的天坛是3层建筑,该开源模型却生成了4层。
他提及,幻觉问题是大模型广泛应用的最大限制之一,“要想基于大模型开发应用,消除幻觉是必须的,如果这个模型总是一本正经地胡说八道,就不会有人信你,就不会有应用。”
过去一段时间,用户对AI工具的生成能力提出了更高需求,例如,更真诚走心的语言、更精细真实的图片等。
而各个企业要做的就是,跨越技术的复杂性,提升用户的满意度。为了解决幻觉问题,今年初百度自研了iRAG技术,这是一种结合检索和生成的技术方法,更好地提升了生成内容的可靠性和准确性。
例如,用户在体验文章的封面图制作时,可能会在文心一言的输入框中写下以下需求:帮我画一张马斯克和一只迅猛龙在后备箱里剥豆角。
用户会发现,文心一言完美理解了提示词,生成的图像没有漏掉任何一个人物或物体的特征,脸部或手部等细节处呈现得足够精细,还兼顾了图片的构图和审美。
文心一言AI生图
市面上较为成熟的大模型,往往具有强大的文本理解能力。作为重要的选手之一,百度拥有国内最大的中文搜索引擎,以及全网最全的中文语料。
iRAG技术成功实现自研的基础,便是将百度搜索的亿级中文语料、图片资源,与强大的基础模型能力相结合,避免了事实错误、推理失败等“一眼假”问题,真正实现无幻觉、超真实。
用户可以通过iRAG技术,生成特定物品、特定人物与任意背景结合的图片,这提升了生成效果的多样性,也激发了用户发挥自身想象,通过合理组合人物、构架场景,创造出更丰富的AI生图。
例如,用户可以上传保时捷帕拉梅拉的图片,生成其在草原上行驶的画面;生成一张比萨斜塔和自由女神像,同框出现在中心城区的照片;生成一张福建土楼出现在现代都市里的图等。
生成保时捷帕拉梅拉在草原上行驶的图片
文生图技术的持续迭代,为内容创作者和行业带来了更多可能性。
当iRAG技术能够突破数据要求和计算难度,产出令人满意的文生图,也就意味着,可以顺利帮助内容创作者突破算力瓶颈,缩短内容制作周期。同样的作品,在更短的时间内制造出来,且内容精良程度还会大幅提升。
同时,以更低的成本进行内容生产,也是iRAG为行业带来的直观影响。在部分环境,iRAG技术可以将创作成本压缩到几乎为零。
“比如在品牌宣传场景,以前拍这样一组海报动辄需要一二十万,甚至大几十万,但是现在创作的成本接近于0。简单说来,iRAG的商业价值体现在:无幻觉、超真实、没成本,立等可取。”李彦宏提到。
随着百度不断攻克技术难点,iRAG的应用场景也在不断延伸,包括漫画作品、连续画本、海报制作、影视作品等应用领域,iRAG为提高AI生成内容的真实感和精细度,下足了功夫。
iRAG技术泛用到更多应用空间,也为这些行业提供了短周期、低成本的解决方案。
3、百度再进化:用AI连接一切业务,重塑内容生态链条
作为生成式AI和大模型技术的领先玩家,近年来百度的技术进阶和应用布局实现大幅进步。
从深度学习框架“飞桨”的持续升级,到文心大模型性能的提升,再到内部不断重构已有产品,百度已形成一个处于动态且正向循环的AI商业生态。
无论是AI创作新物种自由画布的横空出世,还是AI生图技术iRAG的能力跃迁,背后都离不开百度深厚的积累和实践。
自由画布的自由、灵活、高效,源于文心大模型的持续进化。从创作自由度来看,文心大模型的跨模态能力,能够支撑不同领域、不同模态的内容生成,在提升效率的同时,也为用户提供了更好的使用体验。
而文心大模型的升级,也为iRAG技术的高质量生成提供了技术可能。随着百度对大模型性能的提升,今年6月份发布的文心大模型4.0 Turbo,比上一版速度更快、效果更好,理解、生成等基础性能均有显著提升。
在供给侧,百度不断迭代出最强大的基础大模型系列,包括文心大模型旗舰版ERNIE 3.5、4.0、4.0 Turbo,也提供可以免费调用的轻量版ERNIE Speed、Lite、Tiny,降低了用户的使用门槛。
截至11月初,百度文心大模型的日均调用量已经超过15亿,相较一年前首次披露的5000万次,增长近30倍。
随着AI技术能力不断进化,百度也在扩大AI落地应用的规模。
在重构业务中,百度文库的进化效果显著,其从一个文档共享平台进化为内容创作的“AI百宝箱”,将应用场景拓展到了学习办公、家庭教育、娱乐消费等多个领域,推出了智能PPT、智能写作、思维导图等上百项AI能力。
如今,百度文库AI月活用户规模,已经达到国内第一梯队。据其披露的数据,百度文库在智能PPT领域的市场份额已经超过八成;截至2024年10月,百度文库AI用户数累计超过2.3亿,AI功能累计使用次数超过28亿。
百度的最终目标是,在大模型时代形成由无数智能体构成的智能生态。
李彦宏认为,智能体是AI应用的最主流形态,即将迎来它的爆发点。“在模型之上构建智能体是相当方便的,这也是为什么今天每周都有上万个新的智能体在文心平台上被创造出来。”
AI搜索被认为是智能体分发的入口。借助AI,百度的搜索引擎变得更懂用户的细分需求,可以为用户提供更准确和直接的答案,也提升了开发者效率,开发者更容易创建出为用户量身定制的智能体。用李彦宏的话说,生成式AI与搜索就是“天作之合”。
作为工具类智能体,自由画布便是智能生态中各业务相互融合后形成的独特产物。
它的能力来源于百度文库与百度网盘,前者为其提供了海量的公域资料,后者则协助其从私域中提供素材。比如,文库上公开的高质量文档或片段、网盘听记上记录的多场电话会议的音频等,用户全都可以用到自己的创作中。
两大业务深度融合后,帮助自由画布打通了过去公域与私域资料之间存在的限制,避免了AI应用之间数据流通的孤岛现象。用户通过自由画布可以不受阻碍地进行内容资源的消费或运用,以创作多元化和专业化的内容。
而更高质量的AI生成内容,又可以丰富整个内容生态,进一步改变用户AI产品或工具的价值认知,驱动用户拥抱被AI改写的内容消费。
百度一直极为重视挖掘AI时代的增长潜力。李彦宏也曾在公开场合呼吁,“中国有数百个基础模型,但人们越来越多地讨论什么是AI时代的超级应用”,行业参与者应当将精力放到AI应用上。
事实上,百度已经在大模型与AI应用的相互配合之中,将技术优势转化为具体的商业价值——越来越多创新产品可以为整个生态提供发展增量。
接下来的事情就要交给时间:持续保持在产品创新、市场推广等方面的投入,提升用户满意度和产品的市场接受度,不断稳固其市场地位,并等待用户需求爆发的那一刻。