《自然》封面故事:AI模型崩溃︱2024年7月25日刊

图片

封面图片:JVG


封面故事

使用递归生成数据训练的AI模型会发生崩溃

生成式人工智能(AI)工具(如大语言模型)的爆发得益于用来训练它们的由人类生成的大型数据集。随着这些工具不断涌现,以及它们输出的结果在网络上不断增多,训练数据的来源必然会转向计算机生成的内容。在本期《自然》中,Ilia Shumailov和同事研究了这种转变的可能后果。结果不容乐观:团队发现,将AI生成的数据输入一个模型,会导致后续几代模型退化直到崩溃。在一项测试中,关于中世纪建筑的原始文本到了第九代时变成了一串野兔的名字。团队认为,使用AI生成数据训练模型并非不可能,但需要非常仔细地过滤这些数据,而人类生成的数据可能仍具优势。

《自然》论文:AI models collapse when trained on recursively generated data