半月谈：警惕AIGC数据污染“稀释”人类原创

北京日报客户端

2024-10-17 07:49发布于北京北京日报客户端官方账号

互联网的普及使得数据的生成、传播和获取变得无比便捷，网络上的数据量呈指数增长，数据的规模从TB（千兆字节）增加到PB（拍字节）甚至EB（艾字节），数据的种类和来源也变得更加多样化。数据的爆发式增长有力推动了以深度学习为代表的人工智能技术的突破性进展，反过来又孕育了人工智能生成内容（AIGC）这一新的数据生产方式和数据要素形态。

生成式人工智能技术的迅速发展，为人们的学习生活工作带来了诸多便利，也极大地促进了内容创作行业的发展。生成式人工智能是一种能够自动产生新的内容、创造性思考的人工智能方法。这种新型的数据生产方式打破了传统创作的时间和空间限制，使内容生产更加高效、灵活。可以说，AIGC引发了数据要素形态的深刻变革，推动数据从静态资源向动态智能要素的转变，为各行各业的数字化转型和智能化升级提供了新的动力。

生成式人工智能的普及，使数据规模以摩尔定律的速度快速增加，“全球新产生的数据量每两年翻一番”，互联网上每日新增的图片、语料等内容中AI生成内容的占比已经远远超过了真实的、人类生产的内容。随之而来的是数据质量和数据污染问题，诸如深度伪造、偏见和有害内容生成、有效数据“稀释”等。大量低质量或不客观的数据充斥其中，不仅对模型的训练产生负面影响,甚至可能导致错误的决策和偏差。这种数据质量问题，引发了人们对“数据污染”的担忧。

对于机器学习而言，数据污染是指用于训练的数据集中掺杂了低质量的数据，主要体现在数据缺失、数据冲突、数据重复、数据过时和隐私数据泄露几个方面。在生成式人工智能模型大行其道的当下，AIGC可能会加剧有效数据获取的难度，进而造成全社会层面的数据污染，影响构建优质数据要素的进程。

——海量AIGC“冲淡”人类产生的原创数据。一篇关于插画绘制网站Pixiv的研究指出，AI绘图兴起后，人类画师的活跃度下降了4.3%。当AIGC生成的内容开始主导信息生态时，具有独创性的人类内容可能被大量的人工智能生成内容“稀释”乃至“淹没”。一篇来自《Nature》的研究指出，当大语言模型或图片生成模型不断地使用自身生成的数据进行迭代训练时，会导致模型性能的快速退化，这种现象称为“模型崩溃”。我们将越来越难以收集优质的原创性数据进行利用，长此以往或将破坏优质数据要素的构建。

——放大错误观点及有害内容，危害社会氛围。生成式模型的训练依赖于大量公开的网络数据，而互联网上的信息质量良莠不齐，网友们的观点通常带有强烈的个人色彩。即使模型训练时尽力清洗和过滤训练数据，也很难完全避免这些有害内容的渗透。训练数据决定了模型的输出，模型不会辨别哪些信息是正确的，哪些是有害的。如果训练数据中含有偏见或错误信息，模型不仅会继承这些信息，还可能通过生成新内容的方式进一步放大这些问题。由于生成式人工智能模型可以高效地生成海量内容，错误观点和有害信息通过AIGC得以更广泛、更快速地传播，并且由于其逼真的表现形式，极易影响公众的判断，污染网络数据导向。

——生成伪造虚假内容，扰乱公共秩序。生成式人工智能可以根据人的指令生成不存在的内容，极易被用于自动生成虚假新闻和谣言。深度伪造技术（DeepFake）正快速发展，图片伪造、音频合成和视频换脸在生成式AI的帮助下变得轻而易举，这些虚假内容能够以逼真的形式迅速传播，带来严重的社会影响。

——生成式人工智能与AIGC数据对优质数据生态造成影响。从全社会层面来看，倘若低质量的生成内容涌入公共数据源，将进一步污染全社会的数据来源。当数据源被大量低质量生成内容占据，数据生态将逐步崩溃，构建优质数据要素将无从谈起。这不仅影响人工智能行业的发展，还会波及各个依赖数据要素进行生产活动的行业和领域，例如新闻、教育、公共安全等。

AIGC数据需要“清污”。现存的隐私保护、知识产权和数据信息相关的法律与大数据时代已经不匹配。面对互联网上新增的海量原始数据，我们亟须构建完善的数据内容维护、数据质量管理和数据安全监管体系。

联合国大学关于AIGC数据利用与风险的一份调研报告中给出了一些建议：全面推进AIGC相关立法，从源头防范数据污染问题；构建全面的AIGC数据质量与安全评价体系，促进合成数据的合理利用；将AIGC数据管理纳入全球AI治理合作，促成全球范围内全面解决合成数据带来的风险；加快明确生成式人工智能伦理与隐私准则，增强生成式人工智能技术的透明性，防范有违全人类共同价值的AIGC内容扩散，并解决用户隐私和数据滥用等问题。

在尚未建立完善的数据污染管理体系之前，应对AIGC数据污染的有效方法是AIGC检测技术。依托AIGC检测技术，可以在构建数据集和设计模型结构的过程中筛选出真实的、公正的、有效的数据进行训练，从而在新模型训练的层面减少数据污染的影响，阻断数据污染扩散。

从技术层面来看，我国已在诸如AI生成文本检测、深度伪造图片视频检测等方面取得了一定的研究成果。然而，现行AIGC检测工具的泛化性能较差，检测准确率并不稳定，一旦受到特定的攻击干扰，其检测准确度会大幅下降。AIGC检测方法仍然有很长的路要走。

AIGC数据的泛滥引发了人们对生成内容的质量、可靠性和可信度的担忧。为了确保AIGC服务的可信性和可监管性，应该综合发展打造完善的AIGC水印技术，以便对AI生成的虚假信息、深度伪造视频等具有社会危害性的数据进行溯源和问责。此外，不妨利用“数据税”这一概念，旨在对上传大量无效数据或敏感数据的个体征税。

信息安全和隐私保护问题变得日益紧迫。在设计下一代生成式模型时应将安全设计根植于模型系统架构，而不是完成设计后再加入安全保障模块，从而在更加根本的层面缓解因恶意攻击或系统意外漏洞而带来的隐私和数据安全威胁。

（作者罗冠系中国科学院自动化研究所副研究员；中国科学院自动化研究所硕士研究生赵中华、李睿邦对本文亦有贡献）

来源：半月谈