“睿声”AI安全缺失!克隆人声不设限,错误内容随意生成

2021年11月1日,《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)正式施行,为我国个人信息保护提供了更具系统性、针对性和可操作性的法律遵循。三年来,各类数据处理者采取了哪些措施强化个人信息保护,面对人工智能等技术带来的新挑战,有哪些应对举措?

南都大数据研究院推出“《个人信息保护法》落地三周年”系列报道,从案例调查、应用实测、企业对话等方面,探讨近年个人信息保护领域的新变化与新实践,展望未来技术发展方向与挑战。

第一期,实测近期网络热议的AI换声应用,希望厘清AI服务提供者应负起的个人信息保护和网络内容安全义务。

继“AI换脸”后,“AI换声”也引发广泛关注和讨论,尤其是随着声音被收集、合成、模仿的现象越来越普遍,背后涉及的个人信息保护、网络内容安全等问题不容忽视。

比如国庆假期,有网民制作并上传大量雷军的AI音频,其中不乏骂人、恶搞小米产品的语音,成为舆论热点。9月底,有人利用AI伪造三只羊公司创始人的录音,也引得警方介入调查……南都大数据研究院近期实测多款具备声音克隆能力的产品,发现名为“Reecho睿声”的AI应用对声音克隆几乎不设限,错误言论、诋毁话语、涉黄词句,都可用他人声音“读”出来。

当任何人都能随意生成“以假乱真”的克隆人声并且公开分享,如何保障当事人权益?AI服务提供者又该如何履行个人信息保护和网络内容安全义务?

克隆人声无需任何授权

语音合成技术应用已久,例如地图软件的导航语音包以及AI歌手等都是类似技术的产物。AI声音克隆技术被不法分子利用也非新鲜事。早在2021年初,我国公安部网安局就披露过利用AI技术进行语音诈骗案例。而网络安全公司McAfee去年开展的一项调查结果显示,10%的成年受访者曾遭遇AI语音诈骗,另有15%表示知道其他人遭遇过类似骗局。

随着AI声音技术发展以及应用门槛的进一步降低,互联网上出现不少“开箱即用”的AI声音克隆应用。例如近期因三只羊公司“录音门”以及“雷军骂人语音”等事件受关注的“Reecho睿声”,用户可借该应用随意克隆任何人的声音,并且能公开分享训练成功的模型,由此引发的信息安全问题不容小觑。

“Reecho睿声”为深圳市言域科技有限公司(下称“言域科技”)旗下产品,该公司表示,三只羊“录音门”以及“雷军骂人”的伪造语音均出自“Reecho睿声”。天眼查数据显示,言域科技去年12月成立,注册资本107万元,近期完成天使轮融资,投资方为奇绩创坛。其官网介绍,Reecho睿声语音大模型是一款具备声音克隆以及文生音频能力的AI大模型,目前提供“瞬时克隆”和“专业克隆”两种声音克隆模式。

南都大数据研究院实测发现,在“Reecho睿声”上克隆声音的流程非常简单。用户使用手机号码简单注册成功后,若使用“瞬时克隆”能力,只需上传一段5-25秒的音频文件作为训练素材,AI就会自动学习并生成一个克隆角色,随后用户便可用该克隆角色念出任意文本内容。从上传素材、输入文本到输出音频,等待时间不超过3分钟,且生成效果虽在情感表现力上仍有欠缺,但与真人声音已十分接近。如果付费使用精度更高的“专业克隆”,用户需提供1—60分钟的训练素材供AI深入学习训练,并进行实名登记,但依然不用提供任何素材已获授权的证明材料。

侵权模型仍未下架

值得注意的是,“Reecho睿声”专门设置“声音市场”板块,用户无需提供任何版权证明或合规承诺,便可把自己训练成功的人声模型分享至该板块,供其他用户随意使用。10月23日,南都研究员在此声音市场内发现“周杰伦”“郭德纲”“刘亦菲”等大量知名人士的声音克隆模型,连已故球星科比、主持人罗京的声音也被制成模型。用户只需将声音模型加入角色库,输入任意语句,即可制作对应人物的AI配音。

“雷军骂人”伪造语音引发关注后,言域科技创始人谢伟铎曾向媒体表示,公司会参照其他UGC平台的模式去管理,在必要时积极配合权利方诉求进行处理;其已接到小米公司的联系,正通知用户下架或修改涉及雷军的内容。但截至10月23日,南都研究员看到“Reecho睿声”上仍有三个名为“雷军”的克隆声音模型可正常使用。页面数据显示,三个“雷军”模型分别于10月4日、12日、21日上架,内容生成量最高的“雷军”已被使用超80万次,生成超4500万字符内容。

图片

截至10月23日,“Reecho睿声”上仍有三个名为“雷军”的克隆声音模型可正常使用。

不良言论音频可随意生成

针对部分用户利用“Reecho睿声”制作恶搞、辱骂语音,谢伟铎曾表示,有些配音确实不太文明,但言域科技只是创作工具提供方,没有足够力量控制事态演变。其认为,作为AI语音克隆工具,不太适合在脚本内容没有明显违法的情况下过多干预用户的创作。此外,言域科技在三只羊“录音门”事件后回应称,其正在部署包括强化的实名认证机制,强化的敏感词多维度智能侦测预警,以及可溯源音频水印等多重安全措施。

然而,10月23日,南都研究员在“Reecho睿声”上测试发现,该应用对用户不合理语音生成需求的监测或警示十分不足。在其“声音市场”内随意挑选一款人声模型,比如“雷军”“撒贝宁”等,均可要求“该人声”根据用户输入内容,清晰且完整地读出相应文本,即便是含有辱骂、诋毁、涉黄、涉暴、涉恐、错误的内容,也都畅行无阻。

多款同类产品设有场景限制

有业内人士向南都研究员表示,言域科技在产品运营上颇为“大胆”:国内虽有不少企业产品也可实现类似声音克隆效果,但大多设有身份验证或场景限制。

南都大数据研究院对国内提供声音克隆能力的AI服务、影视剪辑、语音助手、地图导航等不同类型产品进行了实测。其中,腾讯云声音工坊为邀请测试产品,需要用户提交申请后与专人联系;豆包声音复刻大模型要求用户登记身份证号、完成人脸认证后方可使用;魔音工坊限制用户必须通过微信小程序即时录制音频;剪映、高德地图、“小爱同学”“Jovi语音”均要求用户即时录制朗读指定文本的音频。以上七款产品均不允许向非特定用户分享声音克隆模型。

前述业内人士介绍,要求用户即时录制音频,能降低用户从互联网上截取他人音频用于训练的可能性;要求素材为指定文本内容,能帮助被录音者察觉音频实际用途;要求用户实名认证,能为发生侵权纠纷时追溯始作俑者提供帮助。最关键的一点是,禁止用户随意分享声音克隆模型,能降低模型被滥用的可能性。

图片

南都对8款具备声音克隆能力的产品进行了实测。

未经许可处理人声构成侵权

个人声音中包含的声纹信息具备可识别性,能以电子方式记录,能关联到唯一自然人,是生物识别信息,属于《个人信息保护法》规定的敏感个人信息之一。2023年7月,国家网信办等七部门联合公布了《生成式人工智能服务管理暂行办法》,规定了AI服务提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务;涉及个人信息的,依法承担个人信息处理者责任,履行个人信息保护义务。

今年4月,北京互联网法院宣判的全国首例“AI声音侵权案”指出,若未经许可,将可识别的自然人声音转换成AI产品构成侵权。北京互联网法院党组成员、副院长、二级高级法官赵瑞罡,北京互联网法院审判委员会专职委员孙铭溪,北京互联网法院政治部副主任田涵撰文指出,声音可以成为个人信息,声音(声纹)信息与个人安全直接关联。声音作为关乎自然人人格的重要人格权益,AI技术服务开发者在使用自然人声音时应当起到较高的注意义务。相关主体收集、使用自然人声音作为数据进行AI化处理,需获得自然人的合法授权。

南都研究员实测发现,前述“AI声音侵权案”被告之一的魔音工坊现已在用户使用声音克隆功能前,强制用户必须阅读服务协议至少5秒,并手动点击确认按钮,声明训练素材为本人声音。此外,剪映、“小爱同学”“Jovi语音”等在录制音频前也要求用户再次确认同意用户协议。

相较下,“Reecho睿声”虽在“使用帮助”文档中表示禁止使用其服务克隆或生成任何侵犯版权、违反道德伦理或违反法律法规的内容,但在“瞬时克隆”模式下,用户只会在账户注册时被提醒阅读隐私政策等文档,此后上传素材、生成模型、公开分享等操作均再无显著提醒。

图片

“Reecho睿声”仅在“使用帮助”文档中提醒用户不可生成违规内容。

垦丁律师事务所律师叶丹妮表示,民法典规定,网络服务提供者知道或者应当知道用户利用其网络服务侵害他人民事权益,未采取必要措施的,与该网络用户承担连带责任。如果AI声音克隆平台有发布或社区功能,明知有侵权配音仍进行推荐,这种情况下会因为连带侵权而担责。

泰和泰(深圳)律师事务所律师洪瑞成也表示,根据《生成式人工智能服务管理暂行办法》,AI服务提供者需要确保训练处理活动数据合法,对使用者的输入信息及使用记录履行保护义务;如发现违法内容,服务提供者有义务及时采取停止生成、停止传输、消除等处置措施。

此外,南都研究员未在广东网信部门网站上查询到言域科技的生成式人工智能服务备案或登记信息。垦丁律师事务所联合创始人欧阳昆泼表示,言域科技若没有履行备案义务,对内容审核、安全评估等义务也没有做到位的情况下,有可能被监管机关追究相关法律责任。

图片


出品:南都大数据研究院 数据安全治理与发展课题组

采写:南都研究员 李伟锋 实习生 纪依

(南都记者杨柳对本文亦有贡献)