科技巨头抢占ChatGPT风口,数据安全挑战不可掉以轻心

图片
若ChatGPT带来的颠覆性影响不可避免,企业和政策制定者均有必要提前预判,并做好数据安全风险管控。
本文字数4883,阅读时长约15分钟
文|财经E法 王梦欣 樊朔
编辑|郭丽琴
近期,由于科技公司谷歌、百度跟随微软密集发布类似ChatGPT的聊天机器人项目,资本市场卷起一场“ChatGPT”概念旋风。
2月3日,有媒体报道称,谷歌已向OpenAI(研发ChatGPT的初创公司)的竞争对手Anthropic投资了近4亿美元。此后的美东时间2月6日,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在一篇博文中宣布,将推出实验性对话式AI服务巴德(Bard)。数个小时之后的北京时间2月7日下午,百度在在微信公众号上宣布,将推出类ChatGPT新项目“文言一心”。微软也迅速行动起来,其首席执行官萨蒂亚•纳德拉(Satya Nadella)在美东时间2月7日表示,推出整合了ChatGPT等AI技术的新版Bing搜索引擎和Edge浏览器。
2月7日当天,百度方面对财经E法确认,百度正在研发类ChatGPT项目,项目名正是官宣的“文心一言”(英文名ERNIE Bot),并称目前该产品在做上线前的冲刺准备,预计3月完成内测,面向公众开放,但该人士并未透露其他产品细节。
不难理解,由于ChatGPT在上线两个月内已经风靡全球,并达到上亿用户的规模,作为后来者的谷歌、百度及其他科技企业,追赶行动已“刻不容缓”。除了百度,截至发稿时,阿里巴巴、科大讯飞等多家中国公司陆续宣布加入这一赛道。
中国人工智能学会专家顾问、人工智能投资人郭涛认为,在此潮流下,越来越多的企业会加入聊天机器人赛道,也会有越来越多的类ChatGPT产品出现。“我们的市场基数大,技术人才后劲足,是有可能参与和改写游戏规则的。”郭涛说。
郭涛预计,“文言一心”可能会首先嵌入百度旗下 “百家号”,之后会在相关技术成熟后再嵌入搜索产品。因为比较好的技术发展路径是先积累数据、完善训练模型,再应用到搜索引擎。此前,一些AIGC(人工智能生成式内容)应用,比如图文转视频技术,已在百家号落地。
有知情人士表示,面对ChatGPT类型技术,谷歌是被威胁者,而百度是受益者。一方面,在技术上,中国能做出类ChatGPT应用的公司少之又少。AI技术架构分为芯片层、框架层、模型层和应用层。百度都做了全栈布局;另一方面,ChatGPT目前最好的商业应用就是搜索,这刚好是百度一直以来的基本盘。
在产业发展端不断传来竞合消息之时,产业界和学界却依然对于“ChatGPT”带来的数据安全风险保持警惕,并期待能通过前瞻性研判和预防性治理,解决这一难题。
图片
01
ChatGPT概念股表现大反转
受各种利好消息影响, ChatGPT概念股持续多日在全球多个资本市场受到力捧。 
2月6日,A股“ChatGPT”概念股表现抢眼。截至收盘,作为概念股龙头,汉王科技(002362.SZ)再涨10%,报29.66元/股,已连续七个交易日涨停,期间累计涨幅达到77.18%;海天瑞生(688787.SH)涨20%;科大讯飞(002230.SZ)涨9.21%。港股虽然整体走弱,但热门概念股商汤-W(00020.HK)逆势大涨超6%。美股ChatGPT概念指数涨1.33%,其中微软、谷歌、英伟达都有不同程度的涨幅。
2月7日,港股百度集团-SW(09888.HK)自开盘一路飙升,最高一度冲高至17%,至收盘,涨幅仍达到15.33%。美股百度(BIDU.US)涨幅12.18%,同时带动了整个板块上涨3.21%。其中谷歌、微软分别涨超4%,英伟达涨5.14%。A股ChatGPT概念继续走热。截至2月7日收盘,包括神思电子(300479.SZ)、海天瑞声(688787.SH)、神州泰岳(30002.SZ)等6只相关概念股涨幅在10%以上。
机构投资者也对此给出了积极评价。相关资料显示,美国投行麦格理将百度今明两年经调整每股盈测分别上调13%和4%,并预计今年经调整经营利润率将提高2.4个百分点至18.3%。资管巨头贝莱德则增加持仓,将其在百度的持股比例增至6.6%,成为该公司最大股东之一。
然而,2月8日,连续多日涨幅的谷歌股价大跌7.4%,市值一夜蒸发约1056亿美元(约合7172.78亿元人民币),为近三个月以来的最大跌幅。公开信息显示,大跌的原因是,当地时间2月8日,谷歌在法国巴黎举行的新闻发布会上正式披露的聊天机器人产品Bard。在进行演示时出现了一个事实性的错误,Bard在回答“詹姆斯·韦伯空间望远镜的新发现”这个问题时,错误地把另一个望远镜取得的成就安给了前者。
02
竞争格局仍待时间检验
财经E法就“搜索引擎”话题向ChatGPT提问
巨头争相入场的当下,它们各自拥有何种优劣势,又将形成怎样的竞争格局?接受财经E法采访的分析师和投资人士均认为,不论全球亦或中国市场,目前并不能判断,哪家企业能笑到最后。 
公开信息显示,开发出ChatGPT的初创企业OpenAI于 2015年便开启人工智能研究,并在2016年开发出第一个人工智能系统。在随后的几年里,OpenAI陆续推出了语言处理模型GPT-1、GPT-2、GPT-3,直到2022年11月30日,OpenAI发布了全新的聊天机器人模型ChatGPT。
艾媒咨询CEO兼首席分析师张毅认为,谷歌、百度着急推出竞品并不奇怪,因为ChatGPT本质上是搜索引擎的升级版,直接跳过了用户需要寻找、对比的过程,形成一段有逻辑的文字。这一形式对搜索引擎而言,是一种较为理想的结果呈现。“这对谷歌和百度而言将是巨大的挑战。如果现在不做,市场份额就要被别人抢走了。”张毅说。
张毅举例称,在早期互联网时代,新浪、搜狐、网易等科技公司凭借门户网站优势,在互联网新闻业务上做得十分出色,但移动互联网时代到来后,字节跳动推出的“今日头条”迅速占领市场,对以往的市场格局造成冲击。张毅表示,“可以把今天的ChatGTP理解为当年的今日头条。”张毅说。
与此呼应的,也是目前最具颠覆性的预言来自谷歌的第23号员工,Gmail的缔造者保罗·布赫海特(Paul Buchheit)。他在在2月1日表示,谷歌将会在一两年内被彻底颠覆,因为其核心商业模式——搜索广告,是其收入的主要来源,将会因AI而消失。
雨花石投资创始人尤丹认为,OpenAI入局最早,且背靠微软,有深厚的技术背景和资金实力,具有相对优势和领先地位。
首先,基于消费者的效率价值:ChatGPT会改变消费者的使用习惯,而且目前已经嵌入Bing搜索引擎里,将会更大地提升效率。其次,谷歌会比小型初创公司更加保守,也存在更大的“声誉风险”。“船太大不好掉头,而且组织决策没有那么快,这反而给了ChatGPT机会。” 尤丹说。第三,微软既号称追加投资数十亿美元,又将旗下全线产品整合ChatGPT,且目前ChatGPT已经有了1亿的用户基数。无论是从用户反馈,还是资本上,都使得ChatGPT占据优势。 
正如前述萨蒂亚•纳德拉发布的博文所说,两年前,谷歌也曾推出大语言模型产品LaMDA。但郭涛称,由于相关法律法规不健全及技术伦理挑战等突出问题,谷歌还是犹豫了,慢了一步,没有进一步迭代成类似于ChatGPT的产品。 
郭涛分析,一方面,当原有商业模式受到冲击时,为应对挑战,谷歌已经顾不上考虑‘声誉风险’了。谷歌有80%以上的营收来自广告,而ChatGPT是通过整合信息直接生成内容,这会导致广告点击次数减少,从而减少广告收入。另一方面,谷歌采取跟进措施,还是看好类ChatGPT技术广阔的应用场景和巨大的市场空间。 
张毅也认为,谷歌未必竞争不过ChatGPT,因为谷歌搜索引擎的能力比微软系的搜索引擎Bing要强得多。此外,谷歌应对C端和B端客户的能力足够强,这对谷歌反而是一个巨大的机会。 
下个阶段,在尤丹看来,要看哪家企业能更快占领市场,得拼产品力和商业模式,且必须有资本加持。 
尤丹分析,最好的商业模式都是效率最快的方式,需要在用户反馈的基础上快速搭建模型且跑通。就目前ChatGPT的用户量来说,第一个闭环是成功的。接下来,就要看OpenAI能否抓住每一个关键节奏。” 
百度之后,也有越来越多的中国公司宣布加入到这个赛道,其中包括阿里巴巴、科大讯飞、昆仑万维等。
有知情人士认为,当下的趋势表明,百度更多会从中受益。
首先,谷歌的收入约80%来自广告,百度广告营收占比仅为57.4%。根据数据,2022 年 Q3,百度核心收入中非广告收入为人民币 65 亿元,同比增长 25%,主要受百度智能云及其他 AI 驱动业务的推动。
其次,百度面临的情况不同。技术上,中国国内能做出类ChatGPT应用的公司少之又少。前述知情人士认为,百度是最有可能挑战OpenAI的中国企业。从2010年起,百度就不断加码AI,在智能技术、软硬件结合、场景落地上不断投入研发,研发金额、人才数量、技术水平和数据积累遥遥领先,最终形成了芯片、框架、模型、应用四层技术栈,其文心系列大模型在行业已普遍应用,而能支撑该训练模型的框架,目前国内没有谁可以超越百度飞桨。
对此,尤丹也表示认同。
张毅和郭涛也认为,就目前而言,中国市场受到ChatGPT的冲击有限,也给百度等企业留下一定的反应时间。
张毅分析,下一步要看百度的对标产品能不能快速上线,此外能否做好内容把控。
张毅同时认为,除了百度,还有其他国内优秀企业在布局这个赛道。因此ChatGPT既给百度打开一扇窗,也可能给百度带来了不小的阻力。“一旦百度的这款产品没做好,市场很有可能被其他对手占据,这对百度而言并不轻松。”张毅说。
2月7日,科大讯飞在投资者互动平台上回应称,该公司在ChatGPT主要涉及到的自然语言处理相关技术及应用上具备长期深厚的积累。同时,该公司已经在核心技术、产业场景、行业数据等深厚积累的基础上,于2022年12月进一步启动生成式预训大模型任务攻关。科大讯飞的AI学习机将成为该项技术率先落地的产品,并将于5月6日进行产品级发布。
2月8日,阿里巴巴“类ChatGPT”项目相关负责人回应财联社称,正在研发类ChatGPT产品,目前正在内测中。
2月9日,自称互联网平台型公司的昆仑万维在官方微信公众号宣布,将与奇点智源合作,在今年内发布中国版类ChatGPT代码开源,防止大公司技术垄断。
03
数据安全风险的全方位挑战
虽然科技巨头陆续入局类ChatGPT赛道,但对于其可能带来的风险和挑战也有警惕,先后警告本公司员工不要随意与ChatGPT互动。这也引发了公众对于ChatGPT是否会带来数据安全风险的担忧。
据媒体报道,2023年1月,作为OpenAI的主要支持者和合作伙伴,微软一名员工在内部论坛上询问是否可以用ChatGPT工作时,其首席技术官办公室的一位高级程序员回复,只要不与ChatGPT分享机密信息,是可以被允许的。这一消息引发市场关注。
而在此前2022年11月ChatGPT刚刚上线,亚马逊的公司律师就警告员工不要与ChatGPT分享机密数据,因为这将会被其用来作为迭代训练的数据。 
对此,北京观韬中茂(上海)律师事务所合伙人吴丹君的解读是,一旦与ChatGPT分享机密信息,这些输入的数据可能被用于未来模型的迭代训练,将会导致其所输出的内容可能包含用户提供的个人信息、机密数据或重要数据,造成敏感数据泄漏的风险。 
2月6日,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受美国《时代》杂志采访时表示,与其他基于语言模型的人工智能工具一样,ChatGPT可能会“编造事实”。
米拉·穆拉蒂说,这将会带来以下问题:有人利用ChatGPT自然语言编写的能力,编写恶意软件,从而逃避防病毒软件的检测;利用ChatGPT的编写功能,生成钓鱼电子邮件;利用ChatGPT的对话功能,冒充真实的人或者组织骗取他人信息等。 
中国政法大学数据法治研究院教授张凌寒对财经E法表示,除了敏感数据的泄漏风险,ChatGPT还有以下数据安全风险:
第一, 未经用户同意即进行大量的数据抓取,从而存在侵犯个人隐私的风险;
第二, ChatGPT很难保证在不断的迭代中完全删除其使用的个人信息。
第三, 在恶意利用方面,ChatGPT通过来自社交媒体或者其他文本数据进行模型训练,可能生成虚假信息、诱骗信息等不良信息,破坏网络舆论生态。恶意使用者能够生成大量用户名和密码的组合,用于对在线账户的撞库攻击。
第四, ChatGPT的自然语言编写能够生成逃避防病毒软件监测的恶意软件,带来网络安全隐患。 
北京师范大学互联网发展研究院院长助理吴沈括认为,ChatGPT的一个重要特点是能够快速汇聚海量数据,通过特定的算法模型输出指向的结果。在这个过程中,需要广泛、海量的数据抓取,快速的自动化分析运算,形成特定的数据输出产品。 
从数据安全的角度看,这一过程包含三个环节:一是数据的来源;二是数据的汇聚运算;三是数据运算结果的输出和利用。这三个环节都存在深刻的数据安全风险,可以概括为数据来源的安全、数据汇聚运算的安全以及数据输出使用的安全。在这三个环节中,蕴含着一个结构更为复杂、程度更为深刻的新型数据生成、流转、利用生态。 
“ChatGPT及同类型的产品从立法、监管、司法三个层面都带来了新的挑战,也提出了进一步完善革新的现实命题。”吴沈括说。
04
如何应对数据安全挑战
若ChatGPT带来的全球产业浪潮不可避免,政策制定者和企业均有必要做好风险预判和管控。
穆拉蒂在接受《时代》杂志采访中强调,ChatGPT需要监管和规制。穆拉蒂欢迎来自政府、监管机构以及其他所有人的帮助。“若要ChatGPT走得更远,就需要对其进行合规性改造。”穆拉蒂说。
为了应对ChatGPT可能引发的数据安全问题,张凌寒告诉财经E法,一方面,需要从法律层面明确有害的类ChatGPT产品的应用范围,推进数据分类分级,定义不同类型的数据以确定各类数据的保护级别和保护措施。另一方面,在技术监管中,监控类ChatGPT产品的使用情况并定期对其进行安全审计,针对技术应用快速迭代的特征,探索动态评估、修改和废止机制,保障监管的科学化和精细化。
吴沈括则认为:“在数据静态安全向更高水平的数据动态安全的规则设计方面,各方需要做出更多努力。包括监管的高效敏捷,以及有效的数据安全相关的司法权益保障能力。”
吴沈括进一步解释,目前,中国的数据安全法律法规相对更偏重于数据静态安全的规则设计,也因此面临动态的安全风险处置挑战。这意味着,后续需要更多关注数据的流动安全、流转利用安全,并对相关法律法规进行完善,这对于建设数据要素市场也具有特别重要的意义。
吴丹君认为,开发并使用类ChatGPT产品的企业,在数据安全合规方面需要注意三个层面:
首先,要保证企业数据来源的安全、可靠,确保已获得处理个人信息的合法性基础;其次,需将算法合规纳入数据安全合规体系,加强技术管理,定期审核、评估、验证算法机制机理。同时,企业还需将伦理道德融入人工智能全生命周期,促进大模型人工智能应用向上向善发展。最后是要加强信息内容管理,建立健全违法和不良信息识别机制和辟谣机制,对输入数据和合成结果进行审核。