Nature封面：“揭穿”一切！谷歌团队为AI大模型添加了“隐形指纹”

学术头条

2024-10-28 10:45发布于北京科技领域创作者学术头条官方账号

尽管生成式人工智能（AI）正在改变全球内容生产的格局，但诸多严峻挑战也随之而来：如何准确识别由 AI 生成的内容并防止其被滥用，尤其是在文本生成领域，已成为困扰越来越多人的一大难题。

今天，Google DeepMind 团队发表了一项重磅研究——

他们开发了一种名为 SynthID-Text 的新型水印工具。该工具采用“锦标赛抽样”（tournament sampling）算法，在不损害文本质量的前提下，通过嵌入隐形水印，使大语言模型（LLM）生成的每段文本都带有独特标识，极大提高了文本追踪和检测的精度。

研究发现，通过在多个公开可用的模型上评估，SynthID-Text 显示出比现有方法更高的检测率。通过对近 2000 万条 LLM 的实时聊天互动数据进行分析，非扭曲模式的水印并未降低文本质量。

相关研究论文以 “Scalable watermarking for identifying large language model outputs” 为题，以封面文章的形式已发表在权威科学期刊 Nature 上。

这一工具的推出，标志着 AI 文本透明性和责任性的重大进展，为当前 AI 生成内容的溯源和透明性提供了新的解决方案，也回应了当前社会对 AI 内容可信度的担忧。

“揭穿” AI 文本的“隐形指纹”

随着 LLM 技术的发展，像 GPT 系列模型等 AI 工具生成的文本内容流畅度和语言多样性已经接近甚至超越人类编写的文本。然而，这也带来了关于内容可信性和来源问题的挑战，尤其是在教育、媒体等领域，无法辨别生成文本的来源可能会导致误导性信息的传播。

在文本生成的过程中，LLM 将文本分解为 token（最小的语言单位），然后逐步预测下一个 token 的出现概率，然后通过大量语料数据的训练，学习语言的上下文结构，从而实现语言生成。每次预测新的 token，LLM 都基于此前生成的 token 和上下文，逐步构建句子直到完成整段文本。

传统的水印技术往往需要在生成文本中做出一些可察觉的修改，如基于机器学习的分类器和检索式系统，可以在一定程度上检测 AI 生成的内容，但其在大规模应用时表现欠佳，且误报率较高。同时，现有的方法往往存在隐私问题，难以在不影响文本质量的情况下进行大规模应用。

图｜LLM 文本生成和生成水印概述

SynthID-Text的创新在于引入随机种子生成器和多层次的水印函数，在每次生成 token 时，随机种子会传递给多个水印函数，通过锦标赛的方式选出符合水印要求的最高分词嵌入文本。这种方法确保了生成的文本具备水印特征，同时不会显著影响文本流畅性和多样性。

在 LLM 生成文本时，SynthID-Text 的嵌入技术分为三个关键步骤：

随机种子生成：输入上下文后，随机种子生成器生成一个种子，该种子将作为后续水印嵌入过程的输入。
锦标赛抽样：随机种子作为输入传递给多层次的水印函数（如 g_1, g_2, g_3），每个函数生成候选 token。然后，系统通过多轮锦标赛比较不同水印函数得出的分数，选出得分最高的词嵌入到文本中。
水印嵌入：每次生成新的 token 时，锦标赛过程会选择符合水印条件的词，而不会显著偏离原有的 LLM 语言模型分布。

图｜SynthID-Text的基于锦标赛的水印

在生成式 AI 应用中，文本质量和多样性至关重要。传统的水印技术可能在嵌入水印的过程中牺牲文本的流畅性，导致生成文本出现语法错误或重复内容。

SynthID-Text 通过非扭曲水印（non-distortionary watermarking）技术优化了这一问题，这种水印嵌入方法兼顾了生成文本的质量和透明性，确保在不改变生成文本自然性的前提下实现水印标记。

研究表明，单词级别的水印嵌入不会改变 LLM 原有的文本生成分布，从而保持了文本的流畅性和多样性。

实验验证：文本质量与水印检测的平衡

研究团队对 2000 万条由 LLM 生成的文本进行了大规模实验，测试了 SynthID-Text 的实际效果。

研究发现，在非失真模式下（即不改变文本结构和语法的情况下），SynthID-Text 几乎不会对生成文本的质量造成任何影响，而且用户对嵌入水印的文本与未嵌入水印的文本的满意度差异仅为 0.01%。这表明，SynthID-Text 能够在不牺牲用户体验的前提下，实现高效的文本水印嵌入。

此外，论文分析了 “单 token 非失真性” 的概念，即在特定配置下，水印算法在生成每个 token 时不会影响 LLM 的原始分布。这保证了文本质量的最大程度保留，使水印嵌入对用户体验几乎没有负面影响。

图｜SynthID-Text 的检测性能

研究还分析了 SynthID-Text 的水印检测性能主要受文本长度和 LLM 生成文本的熵值（entropy）影响。熵值指的是文本生成过程中语言的多样性，即模型生成新 token 时的选项数目。结果显示，熵值越高的文本，水印的嵌入和检测效果越好；而熵值较低的环境下，水印的嵌入与检测难度则增加。

研究指出，这主要是由于模型生成的文本选项较少，锦标赛抽样算法无法选择最优的水印词。

为了提高水印在低熵环境下的嵌入与检测性能，研究团队提出通过增加锦标赛层数的方法来增强水印检测的可靠性，不过研究也警告，过多的锦标赛层数可能导致熵值耗尽，从而削弱水印的嵌入效果。

因此，在实际应用中，研究建议将锦标赛的层数控制在 30 层以内，以确保检测精度与文本生成的平衡。

不足与展望

尽管 SynthID-Text 在隐形水印嵌入方面表现出了显著的优势，但其在某些应用场景下仍存在局限性。主要挑战包括：

加速文本生成中的应用问题：目前，SynthID-Text 尚未对诸如推测性抽样（predictive sampling）等加速文本生成技术进行优化，这意味着在某些应用场景中，水印嵌入的效率可能受到影响。
文本编辑与规避问题：虽然 SynthID-Text 提升了水印的检测率，但研究团队也指出，这种水印仍可能被通过重写或编辑来规避。因此，在实际应用中仍需要结合其他检测技术以提高鲁棒性。
多语言模型的兼容性：当前研究的主要焦点是针对英语的文本生成，而对于不同语言的 LLM，水印嵌入与检测的效果可能存在差异，尤其是在未经训练的语言上。

对此，研究团队表示，他们计划未来将水印算法与其他文本生成加速技术（如推测抽样）相结合，进一步提升水印嵌入与检测的效率与精度。同时，针对不同熵值下水印表现的深入研究，也将有助于扩展其在更多实际应用场景中的一致性表现。

不止是文字

除了文字，SynthID 还可以为音频、图像和视频添加水印，帮助用户确定内容或部分内容是否由谷歌的 AI 工具生成。

据 Google DeepMind 官方博客介绍，在人工智能生成音乐方面，SynthID 将音频波转换为光谱图，二维可视化地展示声音中频率范围随时间的演变。在计算出光谱图后，数字水印被添加到其中，在转换回波形时，利用音频属性确保水印人耳听不到，不影响聆听体验。

在人工智能生成图像和视频方面，SynthID 将人眼无法察觉的数字水印直接添加到图像像素或视频的每一帧中。经过精心设计，不影响图像或视频质量，即使经过裁剪、添加滤镜、更改颜色、更改帧速率以及各种有损压缩方案保存等修改，水印依然保持可检测性。

Google DeepMind 表示，通过开源代码，更多的人将可以使用该工具加水印，并确定文本输出是否来自他们自己的 LLM，从而构建可信的 AI。

随着生成式 AI 技术的普及，信息透明性和追踪性变得至关重要。虚假信息的传播不仅威胁着社会稳定，也对企业声誉和个人权益带来了挑战。SynthID 的推出，不仅为生成式 AI 文本的溯源和透明化提供了技术解决方案，也为应对虚假信息的扩散提供了新思路。

据 Gartner 预测，到 2028 年，超过 50%的企业将开始采用专为应对虚假信息设计的产品和技术，而目前这一比例还不到 5%。在未来，像 SynthID 这样的工具或将为各行业提供强有力的保障，帮助社会在信息泛滥的风暴中保持信任和透明。

查看原图 58K