李彦宏说iRAG灭了 AI 生图幻觉，我们实测文心一言发现并没有

AI先锋官官方

2024-11-13 07:48发布于北京

斯

作者｜子川

来源｜AI先锋官

今天的 2024百度世界大会上，百度创始人李彦宏介绍了一项很顶的技术——“iRAG（image based RAG）”。

他说，过去两年里， AI行业发生最大变化就是大模型基本消除了幻觉。

AI 的幻觉大家都有体验。

尤其在大模型初期，无论ChatGPT还是其他模型，总喜欢一本正经的胡说八道——直到RAG（检索增强）的技术的出现。

此次百度发布的技术叫“iRAG（image based RAG）”。字面意思我们不难看出，是为了解决文生图技术的幻觉问题。

关于这个问题，大家看两组用Midjourney生成的实例就知道是咋回事了。

比如让“马斯克在北京大学门口喝豆汁”

嗯？？？这是豆汁吗？这是北京大学的门口吗？马上打开查了查，北京大学的门口应该长这样式的。

再生成一张“库克拿着小米15手机”的照片。

ennnnnnn。。。。。这是哪位友商的超大版的手机在乱贴苹果标。

就如大家所看到的那样，AI生图有着很大幻觉问题，往往是张冠李戴，图不对文。即使强大如 Midjourney ，也不能幸免。

李彦宏说，依托iRAG可让AI大模型文生图功能准确性大增，不再有“幻觉”，也就是说，AI制作的图片不会再有“AI味儿”了。

真的有介绍的那么厉害，消除了幻觉吗？

我们忍不住实测了一下文心的绘图功能。

比如，我们一起用 AI 来完成下马斯克的梦想，让“马斯克在火星上开着特斯拉”。

生成的效果还不错，是一辆特斯拉，不过里面的司机细看，可不是马斯克。

随后，我们接着换一个简单的。“特朗普站在火星上吃着麦当劳”。

这个生成的就比较不错，无论是特朗普还是火星地貌火星地貌都较好呈现的出来了。

再来一个，刚刚结束的美国大选，特朗普成功的当上了总统，再就让“哈里斯给特朗普颁发皇冠”。

🤔，这不是哈里斯，而是特朗普的老婆梅拉尼娅，依旧存在着幻觉问题。

随后我们反反复复测试了很多搭配，发现幻觉问题依旧存在，并没有发布会介绍的那么神。

写在这里，不经思考，iRAG到底有用还是真的没用。

那就让搭载了iRAG的文心的绘画功能和没有搭载iRAG的Midjourney来一场PK。

先来一个人物图“勒布朗詹姆斯和斯蒂芬库里身穿勇士球衣，在场上打球”。

左：文心右：Midjourney

从这两张图不难看出，文心除了生成的更加真实，连斯台普斯球场都生成出来了，不过它们俩生成的球衣号码都有问题。

再来一个全是物体的图片“广州塔、埃菲尔铁塔和上海明珠出现在月球上”。

左：文心右：Midjourney

在景物还原度来看，两者都没有把所有的高塔生成出来，不过Midjourney生成出来的是月球表明没错了，而文心只是生成了一张月球的背景图。。。

最后来一个人物加景物图“霍金和爱因斯坦在故宫打麻将”。

左：文心右：Midjourney

同样的问题，文心在多人物方面生成的极其不准确，这都出来了两个爱因斯坦。反观，隔壁的Midjourney要更加拉跨，里面的元素出了爱因斯坦有较好的还原外，麻将和故宫的元素愣是一个都没有看到。

总的来说，iRAG技术还是有用的，它能在一定程度上消除幻觉，不过体验下来，还是差了点意思，没有达到预期。

不过，如果把iRAG技术搭载到Midjourney会是什么样的结果呢？

.END.

往期文章回顾

查看原图 1.39M