合规 | 欧盟隐私机构就 GenAI 合法性问题展开讨论

全文2969字,阅读约需9分钟,帮我划重点

划重点

01欧洲数据保护委员会(EDPB)发布意见,探讨人工智能(AI)开发者如何在不违反欧盟隐私法的情况下使用个人数据。

02EDPB强调AI模型匿名性并非理所当然,需要逐案评估,提供非规定性和非详尽性方法列表用于证明匿名性。

03此外,EDPB探讨是否可以将合法权益作为人工智能开发和部署的法律基础,认为数据保护局需进行评估以确定合法权益的适用性。

04对于违法训练的AI模型,EDPB建议监管机构考虑“每个案件的具体情况”,采取缓解措施来限制处理对个人的影响。

05然而,独立顾问卢卡什·奥莱伊尼克警告称,EDPB的意见可能使未经适当法律基础的网络数据抓取合法化,削弱GDPR的核心原则。

以上内容由腾讯混元大模型生成,仅供参考

图片

周三,欧洲数据保护委员会(EDPB)发布了一份意见,探讨了人工智能(AI)开发者如何在不违反欧盟隐私法的情况下,使用个人数据来开发和部署AI模型,如大型语言模型(LLMs)。该委员会在隐私法的实施中发挥着关键的指导作用,并提供支持监管执行的相关指导,因此其观点具有重要意义。
EDPB的意见涵盖的领域包括:AI模型是否可以被视为匿名(如果是,则隐私法将不适用);是否可以使用“合法利益”作为开发和部署AI模型时合法处理个人数据的法律依据(如果是,则无需寻求个人同意);以及使用非法处理的数据开发的AI模型是否可以随后合法部署。
特别是,关于AI模型应遵循何种法律依据以确保符合《通用数据保护条例》(GDPR)的问题,仍然是热门且悬而未决的议题。我们已经看到OpenAI的ChatGPT在这方面遇到了麻烦。如果不遵守隐私规定,可能会面临高达全球年度营业额4%的罚款,或/和勒令改变AI工具的工作方式。
大约一年前,意大利数据保护局初步认定OpenAI的聊天机器人违反了GDPR。此后,该技术还受到了波兰和奥地利等地的投诉,投诉内容包括其处理个人数据的法律依据、编造信息的倾向以及无法纠正有关个人的错误陈述等。
GDPR既包含个人数据合法处理的规定,也包含一系列个人数据访问权利,包括要求提供所持数据的副本、删除相关数据以及更正错误信息。但对于编造信息的AI聊天机器人(或行业所称的“幻觉”)而言,这些要求并非易事。
然而,尽管生成式AI工具迅速面临了多项GDPR投诉,但到目前为止,执法力度却相对较小。欧盟数据保护机构显然正在努力探索如何将长期建立的数据保护规则应用于需要大量数据进行训练的技术。EDPB的意见旨在帮助监督机构做出决策。
爱尔兰数据保护委员会(DPC)在一份声明中回应称,该委员会要求就意见所涉及领域发表看法,并在去年年底的法律变更后,将负责监督OpenAI的GDPR合规情况。DPC表示,EDPB的意见将“促进AI模型在整个地区的主动、有效和一致监管”。
“它还将支持DPC在与开发新AI模型的公司接触方面开展工作,以及处理提交给DPC的众多与AI相关的投诉,”委员Dale Sunderland补充道。
除了为监管机构提供关于如何处理生成式AI的指导外,该意见还为开发者提供了关于隐私监管机构在合法性等关键问题上的看法。但开发者应得出的主要信息是,他们所面临的法律不确定性没有放之四海而皆准的解决方案。
模型匿名性
例如,在模型匿名性问题上(委员会将其定义为AI模型“极不可能”直接或间接识别出用于创建模型的个人,也“极不可能”允许用户通过提示查询从模型中提取此类数据),意见强调必须“逐案评估”。
该文档还提供了委员会所谓的“非规定性和非详尽性方法列表”,用于模型开发者证明匿名性,例如,通过选择训练数据的来源,其中包含避免或限制收集个人数据的步骤(包括排除“不合适”的来源);在训练前的数据准备阶段进行数据最小化和过滤步骤;做出稳健的“方法选择”,这些选择“可以显著减少或消除”可识别性风险,如选择旨在提高模型泛化能力和减少过拟合的“正则化方法”,以及应用如差分隐私等隐私保护技术;以及为降低用户通过查询从训练数据中获取个人数据的风险而添加到模型中的任何措施。
这表明AI开发者所做的一系列设计和开发选择都可能影响监管机构对GDPR对该特定模型适用程度的评估。只有真正匿名的数据(即不存在重新识别的风险)才不受该条例的管辖,但在AI模型的背景下,将标准设定为识别个人或其数据为“极不可能”。
在EDPB发表意见之前,数据保护机构之间就AI模型匿名性存在一些争议,包括有观点认为模型本身永远不能成为个人数据,但委员会明确表示,AI模型的匿名性并非理所当然,有必要进行逐案评估。
合法权益
该意见还探讨了是否可以将合法权益作为人工智能(AI)开发和部署的法律基础。这一点至关重要,因为在《通用数据保护条例》(GDPR)中,可用的法律基础寥寥无几,且大多数都不适用于AI——OpenAI通过意大利数据保护局(DPA)的执法行动已经发现了这一点。
对于构建模型的AI开发者而言,合法权益很可能是他们的首选基础,因为它不需要从每位处理其数据以构建技术的个人那里获得同意。(考虑到用于训练大型语言模型(LLM)的数据量之大,显然,基于同意的法律基础在商业上既不具吸引力,也不具备可扩展性。)
同样,委员会的观点是,数据保护局(DPA)必须进行评估,以确定合法权益是否为处理和开发、部署AI模型适当的法律基础——这需参考标准的三步测试法,该测试法要求监管机构考虑处理的目的和必要性(即,是否合法且具体;以及是否存在实现预期结果的替代性、侵入性更小的方式),并进行平衡测试,以评估处理对个人权利的影响。
欧洲数据保护委员会(EDPB)的意见为AI模型满足依赖合法权益法律基础的所有标准留有可能性,例如,开发用于为对话代理服务提供动力的AI模型以协助用户,或在信息系统中部署改进后的威胁检测,这将符合第一步测试(合法目的)。
在评估第二步测试(必要性)时,评估必须关注处理是否确实实现了合法目的,以及是否存在实现目标的侵入性更小的方式——特别关注所处理的个人数据量是否与目标成比例,同时考虑GDPR的数据最小化原则。
第三步测试(平衡个人权利)必须“考虑每个案件的具体情况”,根据该意见。在开发和部署过程中可能出现的对个人基本权利的任何风险都需要特别关注。
平衡测试的一部分还要求监管机构考虑数据主体的“合理预期”,即,数据被用于AI的个人是否可以预期其信息会以这种方式被使用。此处的相关考虑因素包括数据是否公开可用、数据的来源和收集背景、个人与处理器之间的任何关系以及模型的潜在进一步用途。
在平衡测试失败的情况下,即个人利益重于处理者利益时,委员会表示,可以考虑采取缓解措施来限制处理对个人的影响——这些措施应根据“案件情况”和“AI模型的特点”(如预期用途)来制定。
意见中提到的缓解措施示例包括技术措施(如上文模型匿名性部分所列);假名化措施(如防止基于个人标识符组合任何个人数据的检查);在训练集中屏蔽个人数据或以虚假个人数据替代的措施;旨在使个人能够行使权利的措施(如选择退出);以及透明度措施。
意见还讨论了缓解与网络抓取相关的风险的措施,委员会称这“存在特定风险”。
违法训练的模型
意见还就监管机构应如何对待未按照GDPR要求合法处理数据训练的AI模型这一棘手问题给出了看法。
同样,委员会建议监管机构考虑“每个案件的具体情况”——因此,对于欧盟隐私监管机构将如何回应落入这一违法类别的AI开发者,答案是:视情况而定。
然而,意见似乎为可能建立在不牢固(法律)基础之上的AI模型提供了一种解脱条款,例如,如果它们不考虑任何后果而从任何可以获得数据的地方抓取数据,只要它们在部署阶段之前采取措施确保任何个人数据都被匿名化。
在这种情况下——只要开发者能够证明模型的后续操作不涉及个人数据处理——委员会表示,GDPR将不适用,其写道:“因此,初始处理的违法性不应影响模型的后续操作。”
谈及意见中这一要素的意义时,独立顾问兼伦敦国王学院(KCL)人工智能研究所成员卢卡什·奥莱伊尼克(Lukasz Olejnik)警告称,“必须小心,不要允许系统性的滥用方案”。他的针对ChatGPT的GDPR投诉已一年多,目前仍在波兰数据保护局(DPA)的考虑之中。
他告诉科技媒体TechCrunch:“这与迄今为止对数据保护法的解释存在有趣的潜在分歧。欧洲数据保护委员会仅关注最终状态(匿名化),可能会无意或潜在地使未经适当法律基础的网络数据抓取合法化。这可能会削弱GDPR的核心原则,即个人数据从收集到处理都必须合法。”
被问及EDPB意见整体对其针对ChatGPT的投诉有何影响时,奥莱伊尼克补充道:“该意见并未束缚国家数据保护局的手脚。也就是说,我确信波兰数据保护局将在其决定中予以考虑。”但他也强调,他对OpenAI的AI聊天机器人的投诉“超越了训练,还包括问责制和隐私设计”。
- END -