导读
Foreword
人工智能技术飞速发展,但是作为一类产品,它仍然不成熟且容易被误用。在社会领域,以预测性人工智能工具提供的结果为依据做出决定时,尤其要保持谨慎。应用此类工具能够让决策过程更高效,但可能会忽视人类价值,通过压榨系统降低成本,还可能因数据缺失,决策主体操纵系统等原因导致不公正结果。
想象一下,在另一个宇宙中,没有用于不同交通工具的词汇,只有集体名词“交通工具”。人们用它来指代汽车、公交车、自行车、宇宙飞船,以及从A地到B地的所有其他方式。在这个世界里,对话变得十分混乱。关于交通工具是否“环保”存在激烈的争论,但(尽管没人意识到)辩论的双方实际上一方在讨论自行车,另一方在讨论卡车。火箭技术取得了突破,不过媒体却集中报道“交通工具”速度的提升,于是人们纷纷打电话给汽车经销商(哎呀,其实是“交通工具”经销商),询问速度更快的车型何时上市。与此同时,欺诈者利用消费者在汽车技术方面不知道该相信什么的事实,导致“交通工具”领域骗局猖獗。
现在,把“交通工具”替换成“人工智能”,就能大致描述我们目前所处的世界。
人工智能(AI)是一个涵盖一系列松散相关技术的总称。例如,ChatGPT与银行用于评估贷款申请人的软件几乎没有共同之处。这两者都被称为AI,但是在所有重要的方面——它们是如何工作的、用途、使用对象,以及如何发生错误——是截然不同的。
聊天机器人,以及像Dall-E、Stable Diffusion和Midjourney这样的图像生成器,都属于所谓的生成式人工智能。生成式人工智能可以在几秒钟内生成内容:聊天机器人通常会针对人类的要求提供非常接近现实的回答,图像生成器会生成几乎与任何描述相匹配的逼真图像,比如“厨房里穿着粉色毛衣的奶牛”。其他应用程序可以生成语音甚至音乐。
生成式人工智能正在迅速发展,其进步是真实而显著的。然而,作为一种产品,它仍然不成熟、不可靠、容易被误用。与此同时,它的普及也伴随着炒作、恐惧和误导性信息的传播。
尽管如此,从长远来看,我们对这种人工智能具有改善人们生活的潜力持谨慎乐观的态度。预测性人工智能则是另一回事。
—阿尔温德·纳拉扬和萨雅什·卡普尔
书名:《AI 不是万灵丹: 如何分辨人工智能能做什么,不能做什么》(AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference)
作者:阿尔温德·纳拉扬 和 萨雅什·卡普尔
页数:360页
出版社:普林斯顿大学出版社(Princeton University Press)出版年份:2024年
近年来,预测性人工智能在预测社会结果方面的应用激增。这些应用程序的开发者声称能够预测人类的未来,例如判断一名被告是否会再犯,或一位求职者能否在工作中表现良好。与生成式人工智能相比,预测性人工智能通常根本不起作用。在美国,年满65岁的人有资格参加联邦医疗保险计划(Medicare)。为了降低成本,联邦医疗保险计划的提供方开始使用人工智能来预测患者在医院的住院时长。然而,这些预测往往不准确。在一个案例中,一名85岁的患者被评估为17天后可以出院,但是,17天过后,她依然感到剧烈的疼痛,甚至无法独自使用助步器。然而,根据人工智能的评估结果,保险已停止支付其医疗费用。在此类情况里,人工智能技术的应用往往出于切合实际的意图。例如,如果没有预测性人工智能,疗养院可能会无限期地留住患者。然而,在很多情况下,系统的目标及其应用方式会随着时间的推移而发生变化。人们可以很容易地想到,Medicare提供方使用人工智能,可能最初是为了对疗养院进行基本的监督,但最终却演变成一种不顾人类价值,通过压榨系统降低成本的手段。
类似的故事在各个领域都很普遍。在招聘中,许多人工智能公司声称,能够通过求职者在一段三十秒视频片段中的肢体语言、语音模式和其他外部特征来判断其是否友善、开放或善良。但这真的有效吗?这些判断真的能预测工作表现吗?遗憾的是,这些公司并未发布任何有力的证据来证明其产品的有效性。而且,我们有大量相反的证据,表明预测个人的生活面貌极其困难,正如我们将在第三章中看到的那样。
2013年,保险公司Allstate希望使用预测性人工智能来确定美国马里兰州的保险费率,以便在不失去太多客户的前提下赚取更多利润。这导致了一份“受害者名单”的生成,一份保险费率相较于之前大幅上涨的名单。62岁以上的老年人在这份名单中占比过高,这是一个自动歧视的例子。可能的原因是老年人不太倾向于四处寻找价格更便宜的保险产品,而人工智能利用数据识别出了此行为模式。新的定价可能会为保险公司带来更高收入,但在道德上应该受到谴责。尽管马里兰州以歧视为由拒绝了Allstate在该州使用人工智能工具的提议,但该公司目前在至少其他十个州使用了此工具。
如果个人反对在招聘中使用人工智能,他们可以选择不申请使用人工智能工具筛选简历的职位。然而,当政府使用预测性人工智能时,个人则别无选择,只能服从。(也就是说,如果许多公司都使用相同的人工智能工具来决定招聘结果,类似的担忧也会出现。)全球多个司法辖区都在使用犯罪风险预测工具来决定是否在审判前释放因犯罪被捕的被告。这些系统的各种偏见已被记录在案:种族偏见、性别偏见和年龄歧视。但还存在一个更深层的问题:有证据表明,这些工具的准确性仅比随机猜测被告是否“有风险”略高一点点。
准确性低的一个原因可能是缺乏关于某些重要因素的数据。设想有三名被告,在预测性人工智能工具中,可能用于对其做出判断的特征信息完全相同:年龄、过去的犯罪次数,以及有犯罪记录的家庭成员数量。这三名被告将会获得相同的风险评分。然而,在这个例子中,一名被告深感悔恨,另一名被警察错误逮捕,第三名则急于实施犯罪。人工智能工具没有有效的方法来考虑这些差异。
预测性人工智能的另一个缺点是,决策主体有强烈的动机来操纵系统。例如,人工智能工具曾被用于估算肾移植接受者在手术后的预期寿命。其逻辑是,让那些移植后预期寿命最长的人优先获得肾源。然而,使用该预测系统会导致患有肾病的患者不再积极维持其现有肾脏功能,因为如果他们的肾脏在较年轻时衰竭,他们反而更有可能获得移植机会!幸运的是,该系统的开发过程是经过深思熟虑的,患者、医生及其他利益相关者都参与了讨论。因此,人们识别出了这个激励机制失衡的问题,最终放弃了在肾脏移植匹配中使用预测性人工智能。
这种情况是否会随着时间的推移而有所改善?遗憾的是,我们认为不太可能。许多缺陷是固有的。例如,预测性人工智能之所以具有吸引力,是因为自动化让决策过程更高效,但效率正是导致缺乏问责的原因。除非有强有力的证据支持,否则我们应对预测性人工智能公司的宣传保持警惕。