iRAG，昭示了一条未来技术的应用正道

天方燕谈

2024-11-12 22:26发布于上海

2023年4月的一天，印度的数字艺术家戈库尔·皮莱（Gokul Pillai），在社交网站上发布的“贫民窟的亿万富翁”的人工智能（AI）画作。特朗普、马斯克和比尔·盖茨等亿万富豪们变成了贫民窟居民，衣衫褴褛，蓬头垢面，与周围环境毫无违和感，看起来非常真实。戈库尔·皮莱是从电影《贫民窟的百万富翁》获得灵感，他用Midjourney工具制作了图像，并在Photoshop软件里进行调整，前后花了两天的时间。

这两年，逼真，真实，或者说像真的一样，成为了AI作画生图是否成功的一个重要标准。就像人会有记忆混乱和错觉的时候，人工智能生成图片时，想要一张爱因斯坦的，结果脸是濮存昕的，这就离了个大谱。

过去24个月大模型基本消除了幻觉，一个解决方案浮出水面

准确性是评估AI生成图像效果的首要标准。但人有错觉，AI也有幻觉。用一个开源模型生成北京天坛的图，游览过的人甚至古建筑专家看出了问题，原来真正的天坛是3层建筑，却生成了4层。

这种“一眼假”是怎么回事呢？在大模型进化过程中，人类世界很快解决了文生文的生成式人工智能迭代，但是文生图遇到了AI幻觉问题，生成的图片给人明显不够逼真的感觉。检索增强生成，也就是RAG（Retrieval-augmented Generation）技术，是业内解决大模型幻觉的一种有效方法，它是结合检索和生成的技术方法，可以提升生成内容的可靠性和准确性。

很多基于大语言模型的文生图系统，目前生成的图片还不够真实，甚至不符合逻辑。这很大程度上限制了多模态大模型的规模化应用。2024年年初，百度决定解决图像生成的幻觉问题，自研了文心iRAG技术。

文心iRAG技术作为解决方案浮出水面，百度还确实有一点优势。那就是百度搜索收录了海量特定事物的可信图片资源。大模型的生成能力与这个“外挂知识库”相结合，iRAG就可以做到在生成特定物品、特定人物以及特定人物与任意背景结合的图像时，提高生成图像的准确率，减少幻觉无限接近真实感。现在，中国有模型可以代表人工智能世界说，过去24个月大模型基本消除了幻觉。

文心iRAG，专为去AI味儿

在文心iRAG技术的支持下，大模型生成一套“让爱因斯坦环游世界”的图片，悉尼歌剧院、巨石阵、万里长城、鸟巢、南极……和爱因斯坦这个特定人物，生成融合的非常逼真。尽管鸟巢是爱因斯坦去世后才有的建筑，但是文心iRAG技术处理得没有违和感。

将百度搜索的亿级图片资源跟强大的基础模型能力相结合，生成各种超真实的图片，整体效果远远超过文生图的原生系统，去掉了那一股AI味儿。这里面就包括了特定人物精准生成的选项。用文心iRAG，生成一张奥黛丽赫本写书法的图，会发现连赫本身上的衣服都很中式，颜色与书法艺术、环境都很搭，简直就像真的一样。

2023年初，人们刚开始了解ChatGPT或者文心一言时，最大的担忧就是模型的幻觉，很多人无法相信AI给出的答案。现在这个问题已经基本得到解决。今天，跟文心大模型交流，有了iRAG技术，可以很大程度或者基本相信它给出的答案。特别是生成式的图片，非常靠谱的满足了用户的文本需求，这是人类社会人工智能进化的一个巨大的标志。

“超级有用”的行业应用降本增效，解放人类生产力

随着iRAG技术的日益成熟和稳定，AI生成图片的可用性大大提高，那么iRAG技术的最大价值在哪里呢？答案清晰的：落地应用。在某个品牌宣传场景，以前拍一组海报动辄需要一二十万，甚至大几十万，但是现在使用iRAG技术的大模型，创作的成本接近于零。广告行业、品牌传播、影视娱乐、公司文化……一系列的行业，会在iRAG技术的加持下优化作品和提升效率。

如果要总结iRAG的优点，那就主要是四项：无幻觉、超真实、没成本，立等可取。印度的数字艺术家戈库尔·皮莱创作看起来逼真的AI画作需要两天，文心iRAG只需要几十秒。而在地球上，这才过去了18个月，人类让大模型技术再次进化。

在李彦宏看来，中国AI的发展特色是应用驱动。这也是中国与全球人工智能行业市场最明显的区别。中国市场上有数百种基础大模型，但人们更关心产品与市场的契合度（PMF），更关心哪些应用将从大模型中获益，许多初创公司都在研究如何运用大模型能力。

实用主义的视野下，这也是解放了人类生产力的iRAG技术会产生的贡献。人类社会就是在一直进行降本增效的各种探索与创新，从未间断。iRAG技术推动“超级有用”的行业应用出现，AI就会更充分更好的为人类所利用。这应该是未来世界科学技术的一条应用正道。

大家最近都爱看

每日一荐：大模型100大产业应用来了，工作就会被抢？

查看原图 235K