(关注公众号并设为🌟标,获取最新人工智能资讯和产品)
2024年,当诺贝尔物理学奖和化学奖相继聚焦AI技术时,AI的讨论热度达到了新的高峰。然而,在这片热潮中,争议、误解和夸大宣传交织在一起,使得非专业人士难以分辨AI应用的真实价值。
在这样的背景下,《时代》杂志全球AI领域最具影响力百人之一的Arvind Narayanan和Sayash Kapoor,通过其新作《AI Snake Oil》为我们提供了一个清晰的视角。他们试图帮助读者穿透迷雾,识别真正有价值的AI应用。
Say Kapoor 作为普林斯顿大学信息技术政策中心的计算机科学博士,他的研究重点是人工智能的社会影响。他曾在学术界和工业界工作,包括 Facebook、哥伦比亚大学以及瑞士联邦理工学院。在演讲中,他不同于普遍将生成式人工智能视为革命性突破的观点,而是认为这更像是技术发展的自然延续。他指出,尽管生成式AI可能像互联网一样重要,但我们需要理性评估其边际风险和收益。关键在于不仅要理解技术本身的作用,还要明确它相比现有技术的优势所在。这种务实的分析方法,摒弃了科幻电影中对AI的夸张想象,为我们展示了AI技术的真实边界——它究竟能做什么,又有哪些是目前无法实现的。
一、AI应用如何被称为“蛇油”
《AI Snake Oil》这本书的核心是区分真正有价值的AI技术和可能成为"蛇油"的AI应用。这个比喻源自约150年前美国盛行的蛇油商人,他们兜售声称包治百病的蛇油药膏。正是为了应对这类虚假宣传,FDA得以成立。这个历史教训告诉我们,区分有效和无效产品对行业发展至关重要。
现代AI领域也面临类似情况。以招聘AI为例,有公司声称仅通过30秒的视频面试(谈论兴趣爱好等),就能评估求职者是否适合某个职位。系统会给出具体到小数点的"果断性"分数,并据此决定候选人去留。这类招聘工具已在大型企业中广泛应用,融资超过10亿美元。然而,几乎没有同行评议的研究能证实它们的有效性。
这反映出理解AI应用边界的重要性。AI是个宽泛的概念,包含多种技术。一方面如AlphaFold、DALL·E等生成式AI取得了实质性进展;另一方面,某些声称能准确预测人类行为的预测式AI,比如通过询问"你喜欢整洁还是凌乱的桌面"来评估工作表现,则显得很不靠谱。识别这种差异对于负责任地发展AI技术非常重要。
二、社交媒体算法和机器人
在内容审核领域,AI在处理违规图片、仇恨言论等具体任务上很有效。但在更复杂的问题上,如确定平台的价值观和内容边界等核心决策,AI目前的作用仍然有限。对于机器人和自动驾驶技术,虽然进展比预期慢,但这种局限并非不可克服。这些技术需要适当监管,与那些虚假宣传的预测型AI有本质区别。预测型AI系统的一个主要问题是其不透明性。由于公司声称这些都是商业机密,外界很难评估其有效性。这种不透明可能导致严重后果,比如:
1、荷兰的福利欺诈检测系统就是个典型案例。2013-2019年间,该系统错误地要求约3万个家庭退还福利,金额有时高达10万欧元。很多家庭因此破产,而且没有申诉渠道。这一事件最终导致荷兰首相内阁辞职,政府不得不给受害者巨额赔偿。 2、美国医疗技术公司Epic的败血症预测系统也暴露了类似问题。该公司声称其准确率接近80%,并在数百家医院部署。但四年后的独立研究发现实际准确率仅约60%,产生大量误报,且多数正确预测的病例医护人员已经发现。直到五年后,Epic才承认系统存在缺陷并停止销售。
这些案例揭示了预测型AI系统的一个关键问题:其效果往往需要长期积累数据才能验证。这与用户能够立即判断效果的生成式AI(如ChatGPT)形成鲜明对比。在医疗环境中,即使是经验丰富的医生护士也需要长期使用才能认识到系统的局限性。这种特性使得不当使用预测型AI可能造成长期且广泛的负面影响,而这些影响往往在问题被发现时已经难以挽回。
三、预测型人工智能
如果回顾预测型人工智能的历史,这种情况并非孤例。近年来,已经看到数百起类似事件,存在缺陷的算法被大规模部署,影响数十万人,涉及健康保险、残疾福利、法律援助等领域。许多情况下,这些算法在被证明无法达到开发者声称的效果后,被撤回。
对预测型AI系统在各个领域的大规模部署引发了严重问题。数百起案例显示,这些存在缺陷的算法影响了数十万人的生活,涉及健康保险、福利发放、法律援助等重要领域。大多数系统在被证实无法达到开发者声称的效果后才被撤回,但往往为时已晚。
预测型AI失败的原因值得深入分析。90年代一家医院的案例很好地说明了这个问题:
医院开发了一个神经网络系统来预测肺炎病人是否需要住院; 系统错误地倾向于让哮喘病人出院,而非住院观察; 深入调查发现,系统之所以认为哮喘病人"低风险",是因为在现有制度下这些病人会直接被送往ICU接受最高级别护理; 由于模型分析了数百个特征,使得区分真实因果关系和虚假相关性变得极其困难。
这个案例揭示了预测型AI的核心问题:
系统往往被部署在与开发环境完全不同的场景中; 开发者对实际使用环境缺乏了解,却将其作为通用工具推广; 系统容易受到数据中虚假相关性的误导; 这些问题在实际应用中难以被及时发现。
然而,《AI Snake Oil》并非一本反技术的著作。它特别指出了生成式AI的积极前景。有一个有趣的现象:当AI技术变得足够可靠时,人们往往不再将其视为"AI"。就像拼写检查曾在70年代被认为是一个AI难题,而现在已经成为计算机的基础功能。
书中对AI技术的发展做出了几个重要预测:
这种区分对于理解AI技术的未来发展至关重要。它提醒我们需要区分不同类型AI的潜力和局限,避免盲目乐观或过度悲观,而是采取更加细致和务实的态度来评估和应用AI技术。
三、AI智能代理
生成式AI近期引发了广泛关注和讨论,但我们需要理性看待其能力和局限性。拿GPT-4为例,它在2023年的模拟律师考试中取得了前10%的成绩,这引发了媒体对"律师是否会过时"的热议。然而,通过考试仅是成为律师的基础要求之一,远不能代表律师工作的全部内容。律师的职责涉及客户咨询、案情分析、法庭辩论等复杂的人际互动和专业判断。这提醒我们,虽然AI在标准化测试中的优秀表现值得肯定,但不能简单地推论它将完全取代某些职业。
最近的技术发展重点已从单纯的语言模型转向了基于语言模型构建的智能代理系统。例如,Anthropic开发出了能够编写和运行代码、创建简单应用程序的代理。但这些系统在现实应用中仍面临严重的可靠性挑战。就拿外卖配送来说,如果一个智能代理只能在80%的情况下准确送达,这实际上就是一个重大失败,因为这类服务需要接近100%的可靠性。这种差距凸显出语言代理在处理现实世界任务时的局限性。
在科学研究自动化领域,最近有一些雄心勃勃的尝试。例如,日本初创公司Sakana声称已经构建了能够完全自动化科学研究的智能代理,这些代理可以编写代码、运行实验、阅读论文。为了验证这类系统的实际效果,我们进行了一项基准测试。我们没有追求完全自动化的科学研究,而是专注于一个相对简单的任务:自动重现已发表论文的实验结果。
这项工作如果能够实现,将为研究人员节省大量时间,因为重现前人研究结果是开展新项目或验证已有研究的必要步骤。在现实中,许多论文的结果难以重现,验证工作本身就需要投入大量时间和精力。然而,测试结果令人深思:通用智能代理(如Auto GPT)在300篇论文中仅能重现6%的结果,即使是经过专门优化的代理,牺牲了通用性来提升特定任务的表现,成功率也只达到22%。
这些发现告诉我们,在与公众交流AI技术时,需要更准确地传达其实际能力,避免过度炒作,保持务实态度。即使是看似简单的任务,对AI系统来说也可能充满挑战。有些任务的完成度可能存在难以突破的理论上限,这一点值得我们深入思考。作为技术从业者和研究人员,我们有责任向公众传达这种现实,帮助人们形成对AI技术更加客观和理性的认识。
四、AI生成误导性信息
在本书中,关于人工智能的不正确或误导性信息的来源之一,主要的来源之一是人工智能公司。这里指的并不是那些构建基础模型的公司,而是那些使用这些模型的公司。例如,那些声称可以通过人工智能自动化招聘的公司,或者那些声称能够实现科学研究自动化的初创企业。这让我回到我想要描述的“图谱”。提到了公司,但并不是单单指向你们这些人(Google)。还可以把研究人员加入这个图谱中。在我们看来,这两者是推动人工智能公众认知的主要来源。
然而,许多人听到的关于人工智能的成果通常是被夸大的。例如,2023年在GPT-4发布后不久,许多公共人物开始讨论人工智能对人类未来的影响。例如,一封公开信由该领域许多知名人物签署,呼吁各公司暂停训练大型人工智能模型,因为担心会带来文明风险。书中有整整一章讨论为什么这些声明可能被夸大。在这里,想指出其中一位签署人是埃隆·马斯克。一年后,他拥有世界上最大的人工智能训练数据中心之一。据估算,他目前拥有约20万块H100 GPU,这足以在几个月内训练出计算量比GPT-4高出10倍的模型。这不仅仅是为了指出某些人的“言行不一”,更重要的是说明,当人工智能专家对某些问题发表声明时,他们通常被视为可靠的权威。但实际上,当他们的声明超出人工智能技术进展本身时,他们可能并没有特别的洞察力或知识,因而不应完全依赖这些声明。
另一个例子是诺贝尔奖得主杰弗里·辛顿(Geoffrey Hinton)的言论。2016年,他说了一段话,我引用一下:“如果你是一名放射科医生,你就像悬崖上的土狼,已经越过悬崖但尚未低头。人们应该停止培训放射科医生,因为显而易见的是,在未来五年内,深度学习将比放射科医生做得更好。”然而,五年过去了,深度学习在放射学领域的表现如何?有一篇论文发表在五年后,研究发现深度学习在识别胸片中肺炎的表现中,几乎完全依赖于胸片右上角的医院标识,而不是实际分析肺部的病变。此外,在辛顿发表上述言论后的六年里,全球反而出现了放射科医生短缺的问题。
并不是想单独挑出辛顿、马斯克或其他某个人,而是想强调,当人工智能专家对人工智能对职业影响的发表预测时,他们基本上是基于对人工智能的直觉判断。但他们并不是最适合对这些领域中的职业发表直觉判断的人。这就像在打字机发明时,有人宣称打字机会让作家失业一样。仅仅因为某项技术能在表面上完成某个职业的某些功能,并不足以了解其对整个职业的真正影响。当然,这里并不是说人工智能不会对这些职业产生影响,而是我们应该更多依赖领域专家的判断,同时结合人工智能专家对技术的理解,而不是完全依赖后者的预测。
五、AI炒作的现状
书里面已经提到,大多数人工智能研究成果是被夸大的。除此之外,还有公众人物对人工智能未来的大胆预测。所有这些叠加在一起,导致了人工智能在公众内容中的高度炒作。以微软基于GPT-4的Bing Chat为例,它一发布就引发了媒体的戏剧性报道。《纽约时报》以"Bing的AI聊天:'我想活着(I wanna be alive)'"为标题,《华盛顿邮报》则声称"新版Bing告诉记者它能感知或思考"。这些耸动的标题只是发布会后涌现的众多类似报道中的冰山一角。
这种将AI拟人化的倾向其实由来已久。早在1966年,约瑟夫·魏森鲍姆开发的聊天机器人Eliza就展示了这一现象。虽然Eliza的功能极其简单,仅能将用户的话以问题形式返回(比如用户说"男人都一样",它会回应"你认为这之间有什么联系?"),但使用者仍倾向于认为自己在与一个有意识的存在对话。这种被称为"Eliza效应"的现象揭示了人类在与AI互动时的认知偏差。
更令人困扰的是,媒体在报道AI时经常使用不恰当的视觉隐喻。例如,CNN在报道一个基础的数据处理工具时,使用了《终结者》式的机器人形象。这种报道方式,加上对AI"感知"和"认知"能力的夸大描述,形成了一个持续的炒作反馈循环。这些报道利用了人类将非生命体拟人化的认知偏见,进一步加剧了公众对AI能力的误解。
这种炒作的危害不容忽视。正如Jeffrey Ding在《技术与强国崛起》中指出的,通用技术(如AI)的真正价值在于它能否有效扩散到经济中的各个生产部门。仅仅创造出更好的AI系统是不够的,关键是要让各行业的专业人士能够将这些技术有效融入到日常工作中。然而,目前的AI炒作反而阻碍了这一过程。例如,在法律行业,已经出现多起律师因使用AI生成虚假案例而受到谴责的事件。这些律师在各国和不同司法辖区中引用AI生成的不存在判例,导致AI技术在法律领域产生了总体负面的影响。
要真正发挥AI的生产力和改进效果,我们需要帮助法律、教育、医疗、金融等各个领域的专业人士准确理解AI的实际能力和局限。只有突破炒作的迷雾,让人们对AI形成理性认识,这项技术才能真正服务于各个专业领域,实现其应有的价值。技术从业者有责任推动这种理性认知的形成,确保AI技术能够健康、有效地融入各个行业。
六、AI炒作是如何形成
在书中还讨论了人工智能的80年历史。这一点非常重要,因为对许多科技圈外的人来说,ChatGPT 的出现似乎是突然发生的,是他们与人工智能的第一次接触。但实际上,这些进展可以追溯到几十年前。例如,1958年,Frank Rosenblatt 展示了基本的感知机系统,该系统可以识别字符或图形。我们书中有一章并未直接讨论人工智能,而是关于我们试图用人工智能预测的社会过程。这些过程在什么时候可行,而什么时候存在根本性的局限。例如,上面的图片展示的是19世纪的天气系统。天气预测是一个过去几十年里取得巨大进步的领域,比如 Google DeepMind 最近的研究 Graft-Cast,就展示了人工智能在天气预测中的潜力。
与此形成对比的是下面的图片,它涉及所谓的“生活结果预测”。这个领域试图收集儿童的生活数据,并预测他们的未来生活结果。例如,普林斯顿大学的一项研究试图使用数万个特征预测儿童的生活结果,但发现即使拥有关于每个孩子的详细数据和超过4000个儿童的数据集,最好的人工智能模型也无法超过一个仅使用四个变量的简单回归模型。这个模型中的三个变量与母亲有关,另一个是过去的结果变量,比如预测GPA时使用上一年的GPA。
这些预测中的根本性局限让书中的观点更加坚定:某些类型的生活结果和社会结果从根本上是不可预测的。我们还讨论了人工通用智能(AGI)可能带来的生存风险,以及为什么目前的风险论点不太可能实现。但与此同时,我们仍然需要认真对待人工智能安全的重要性,尤其是在涉及网络安全和生物武器等其他灾难性风险的情况下。
Google 在网络安全方面的一些研究工作,比如利用大型语言模型(LLM)检测开源软件中的漏洞,并通过这些漏洞向防御者提供信息。可以用人工智能来减少灾难性风险,降低网络攻击的可能性,这是值得投资的领域。书中的一部分被命名为“破碎的人工智能吸引破碎的机构”。这里讨论了人工智能“蛇油”产品的需求来源。例如,一个招聘经理需要筛选1000份简历来填补一个职位空缺。这种资源和时间都不足的机构会寻找解决方案,即使不使用人工智能,这些机构也会寻找某种“灵丹妙药”。
关于监管的神话:一方面是认为监管是防止人工智能危害的灵丹妙药,另一方面是认为完全不需要监管。但监管对于保护公众免受人工智能(尤其是预测型人工智能)的一些危害是必不可少的。最后,以一个正面和负面的未来愿景来结束全书。作为人类,我们需要将世界引向正面愿景,而远离负面愿景。