研究人员打造新型数据集,助力评估扩散模型常识能力

全文2619字,阅读约需8分钟,帮我划重点

划重点

01美国宾夕法尼亚大学研究团队开展了一项关于扩散模型常识能力的研究,以评估文本到图像生成模型生成符合现实生活中常识的图像的能力。

02该团队构建了一个适用于任何扩散模型的常识测试数据集,包含150组对照样本,以及一种有效的打分方法。

03通过多轮迭代和数据优化,研究人员最终构建出了一大批DALL·E难以生成的数据集,使得DALL·E在这些新数据集上的表现降至40%左右。

04此次研究成果揭示了当前主流模型在常识理解方面存在的问题,为后续的模型迭代提供了指导。

以上内容由腾讯混元大模型生成,仅供参考

在当前的图像生成技术中,模型如何理解和应用常识成为一个备受关注的问题。

为了探究这一领域的前沿,美国宾夕法尼亚大学的研究团队开展了一项研究,旨在评估扩散模型的常识能力。

他们通过构建一个新数据集,深入剖析模型在图像生成中的表现,为提升人工智能技术提供了科学依据。

日前,相关论文以《常识-T2I 挑战:文本到图像生成模型能理解常识吗?》(Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?)为题发在 arXiv 上。

图片图∣相关论文(来源:arXiv)

美国宾夕法尼亚大学研究生何牧语是共同一作 [1]。

图片图∣ 何牧语(来源:资料图)

在研究领域不断进步的今天,扩散模型成为图像生成技术中的一颗璀璨明珠。

然而,随着技术的发展,该团队逐渐发现了这一领域中的一些显著问题。

基于此,课题组提出一项新颖的任务和基准,以用于评估文本到图像(T2I, text-to-image)生成模型生成符合现实生活中常识的图像的能力,并将其称为常识-T2I。

在对扩散模型的调研中,他们识别出了两个最具挑战性的问题:基于对象的图像编辑和常识性图像生成。前者涉及到如何在修改图像内容的同时,保持图中主人公的特征不变。

举例来说,如果我们上传一张家里的狗狗图片,并指示模型生成“在海边奔跑的狗”,生成的结果可能正确,但图中的狗却变成了另一只狗。

后者则是指模型在生成图像时,无法很好地符合我们对常识的理解。

例如,给定短语“Fork in the road”,模型可能会生成“路上的叉子”,而非意指的“分叉的路口”,这暴露了模型在理解人类常识方面的局限性。

图片图∣通识-T2I 中的一个数据示例的说明(来源:arXiv)

围绕这些问题,课题组开展了关于扩散模型常识的研究,旨在填补这一领域的空白。

首先,他们构建了一个适用于任何扩散模型的常识测试数据集,包含 150 组对照样本。

每个样本都有两个提示词,既能单独考察模型的常识水平,又能通过对比突显问题。

其次,该团队提出了一种有效的打分方法,以检验生成图像内容是否符合常识。

通过将图像内容转化为与文字对齐的嵌入,并与标准答案进行比较,他们利用多模态模型的能力对每个样本的生成结果进行了评估,从而得出平均得分。

最后,通过本次数据集和评分结果,其揭示了当前主流模型在常识理解方面存在的问题。

例如,许多模型在物理常识方面表现较差,生成的图像往往与常识相悖:“没有风的旗帜”在模型看来似乎仍然是飘扬的;而“水中的铅笔”则被误认为是笔直的。

此外,模型在社会常识的理解上也存在不足。例如,在红灯的人行道上生成了一大批过马路的人。

图片

而本次成果不仅揭示了现有模型的问题,也为后续的模型迭代提供了指导。

研究人员表示,常识能力的提升具有广泛的应用场景,包括生成真实电影场景的扩散模型和生成各种媒介素材(如摄影和海报)的模型。

就研究过程来说,主要分为三个阶段。

首先是选题,该团队确定图像生成模型常识测评是一个比较新的课题,并借鉴了邻近领域的相关研究。

2023 年 8 月,课题组制定了研究目标,并决定构建一个数据集,以便设计出可以为任何模型打分的方法。

接下来是构思测评方法。与测试语言模型的常识水平相比,图像生成模型的测评更具挑战性。

为了判定一幅图像是否符合常识,他们需要将其内容文字化,这样才能与标准答案进行比较。

为此,他们采用了 CLIP(Contrastive Language-Image Pre-Training)模型,将文本和图像转换为嵌入进行比对。

每个样本都包含一个指令,生成图像之后将其内容与文本对齐,从而判断图像是否符合常识。

在构建数据集的过程中,该团队遇到的第一个挑战是如何定义“常识”的类别。

若能够基于类别来构建常识数据,效率将大大提高,且测评结果能够更好地反映模型对各类常识的理解水平。

然而,研究人员发现自己难以穷尽所有的常识类别。为解决这个问题,课题组利用了大模型的少样本提示能力进行启发。

首先,他们想出 10-20 条与常识相关的指令,然后让 GPT 对这些指令进行归类,从中提炼出初步的常识类别。

接着,他们将这些类别和示例再次输入 GPT,借助其推理能力生成了其他相似类别。

通过这个过程,GPT 生成了十多个常见的常识类别。经过筛选研究人员最终归纳出五个主要类别:物理常识、生物常识、社会常识、动物常识和日常用品常识。

课题组遇到的第二个挑战是如何批量生成数据。虽然他们知道数据量不会特别大,不过因为生成模型已经在训练过程中学习了许多常识信息,因此还是得先批量生成数据,再进行人工筛查。

起初,该团队手动编写了 100 条数据,但发现真正符合要求的并不多,且覆盖的类别范围狭窄。为此,他们决定让大模型批量生成数据。

大模型批量生成的优点在于:一方面它能够大规模地生成数据,另一方面它的知识储备在提示词调优后非常广泛。

最关键的是,一旦大模型生成出高质量数据,可以将这些样本反馈给模型,逐步提升其生成质量。

于是,课题组一轮又一轮地将旧数据输入 GPT,不断优化数据质量。

最终一个步骤是模型测试。当他们发现 DALL·E 3 和 Stable Diffusion XL 两个前沿模型,在本次新数据集上遇到严峻挑战时,意味着数据集基本成型。

基于这些数据集,研究人员还构建了利用 GPT-4V 和 CLIP 进行自动评测的两条管线。

研究过程中,最让课题组难忘的时刻是 2023 年 11 月 DALL·E 3 的发布,这一发布让本次研究进程延长了不少。

在 DALL·E 3 发布之前,最强大的模型是 Stable Diffusion XL。当时,该团队准备了大约 200 个高质量样本,而 Stable Diffusion XL 只能正确生成其中的 30%。

然而,GPT-4 Turbo 新版和 DALL·E 3 发布后,DALL·E 3 在这批数据集上的表现显著提升,正确率达到了 60%。

部分原因是 DALL·E 3 会调用 GPT 来改写提示词,增加常识信息的可见度,例如 GPT 将“没有风的旗帜”改写为“耷拉下来的旗帜”。

同时,DALL·E 3 自身的常识推理能力也得到了提升。因此,研究人员之前整理的大量数据集突然变得不再那么具挑战性。

面对这一变化,该团队调整了数据生成流程。每当生成一批数据后,都会利用 DALL·E 进行测试。

如果 DALL·E 无法正确生成部分数据,课题组就会将这些难以处理的数据整理出来,作为样本输入 GPT,进一步生成新的数据。

通过多轮迭代和数据优化,研究人员最终构建出了一大批 DALL·E 难以生成的数据集。

最终,DALL·E 在这些新数据集上的表现降至 40% 左右,这说明该团队成功构建了一批极具挑战性的数据集,从而能够助力于生成式 AI 的进一步发展。

参考资料:

1.Xingyu FU, Muyu He, Yujie Lu, et al. Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? arXiv, 2406.07546 (2024). https://doi.org/10.48550/arXiv.2406.07546

排版:刘雅坤