从鸽子到人工智能,强化学习怎样按人类的意愿行事?

图片

人工智能(AI)堪称当下最热门的科技词汇之一。随着ChatGPT、DeepSeek等人工智能工具的出现,我们在亲眼见证甚至亲自体验人工智能的力量的同时,却也在目睹学术界和产业界领军人物对人工智能的潜在风险发出警告:本应和人类相向而行的人工智能,却很有可能和人类背道而驰。而如果我们想避免发生人工智能挑战人类的事情,当务之急是解决“对齐问题”。


美国计算机科学畅销书作家布莱恩·克里斯汀(Brian Christian)就瞄准“对齐问题”,在他的作品《人机对齐:如何让人工智能学习人类价值观》中以广阔的视野探讨了诸多涉及人工智能的关键问题,呈现了机器学习和人类价值观之间的深层联系。以下这些来自克里斯汀书中的内容,让我们看到早期对鸽子和其他动物的研究如何启发了当今人工智能中的强化学习以及背后的挑战和困境。


1943年,斯金纳在研究一个战时秘密项目,这个项目最初是由通用磨坊食 品公司赞助的。通用磨坊把明尼阿波利斯金牌面粉厂的顶楼给斯金纳做实验室。这个项目是当时最大胆的构想之一:斯金纳打算训练鸽子啄食轰炸目标的图像,然后把鸽子3只一组放在真正的炸弹里,在投弹时制导。“我和同事们知道,”斯金纳说,“在全世界眼中,我们是疯子。”


斯金纳意识到,许多人会认为这个项目疯狂且残忍。关于疯狂,他指出,人类将动物(超越人类)的感官用于人类目的的历史悠久且有传奇色彩:导盲犬、搜寻松露的猪,等等。关于残忍,他辩解道:“我们是否有权将低等生物转化为不自知的英雄,思考这个伦理问题是和平时期才有的奢侈。”


图片

▲斯金纳


斯金纳长期致力于强化研究,他著名的“斯金纳盒子”可以说是桑代克迷箱在20世纪中期的升级版。盒子中的灯、杠杆和机械食物给料器(通常是用自动 售货机改装)可以对强化进行精确和定量的研究,它们将被几代研究人员沿用(例如舒尔茨将其用于研究猴子的多巴胺)。1950年代,斯金纳利用他的盒子研究动物如何在各种条件下学会采取行动来最大化奖励(通常是以食物的形式)。他提出了“强化程序”的概念,测试了各种类型的强化程序并观察效果。例如,他比较了按“比率”强化(一定数量的正确行为会得到奖励)与按“间隔”强化(一定时间后的正确行为会得到奖励)。他测试了“固定”和“可变”强化,前者的行为数量或时长保持不变,后者允许波动。斯金纳的著名发现是,最强烈、最重复、最持久的行为往往来自可变比率的程序——也就是说,奖励出现在重复多次的行为之后,但重复次数会波动。这些发现对理解赌博成瘾有一定启示——可悲的是,它们无疑也启发了如何设计更容易让玩家上瘾的赌博游戏。


图片

▲一个以小鼠为实验对象的斯金纳盒子


然而,在顶楼的秘密实验室,斯金纳还面临另一个挑战:不仅要弄清楚哪些强化程序能植入最根深蒂固的简单行为,还要弄清楚如何仅仅通过奖励来产生相对复杂的行为。有一次,当他和同事试图教鸽子击球时,困难变得很明显。他们建了一个微型保龄球馆,里面有木球和玩具球瓶,打算在鸽子向球猛击时给予它第一次食物奖励。不幸的是,什么都没发生。鸽子没有这样做。实验员等啊等啊……最终失去了耐心。


然后他们改变了策略。如斯金纳所述:


我们决定强化任何与击球稍有关联的反应,也许起初只是看向球的行为,然后选择更接近最终目标的反应。结果令我们惊讶。几分钟后,球开始在盒子壁间碰撞,就好像鸽子是壁球冠军。


效果是如此惊人,以至于斯金纳的两位助手——玛丽安·布雷兰(Marian Breland)和凯勒·布雷兰(Keller Breland)夫妻俩——决定放弃心理学学术生涯,成立一家动物训练公司。“我们想利用斯金纳的行为控制原理来谋生,”玛丽安说。他们的动物行为公司将成为全世界同行业最大的公司,训练各种动物在电视、电影、商业广告和海洋世界等主题公园中表演。不仅仅是谋生:他们建立了一个王国。


斯金纳也认为,在面粉厂秘密实验室的微型保龄球馆里的这一刻对他是一种顿悟,改变了他职业生涯的轨迹。他认为,关键是“通过强化与最终目标大致相似的行为来逐渐塑造行为,而不是等待完全一样的行为”。


然而,鸽子计划最终没有付诸实施。鸽子们干得非常出色,如此出色,以至于转移了政府科学研究和发展办公室委员会的注意力。“由活着的鸽子执行任务的景象,不管多么美丽,”斯金纳写道,“只会提醒委员会我们的提议多么不切实际。”斯金纳当时还不知道,政府正在努力推进曼哈顿计划,研发一种杀伤半径非常大的炸弹,用他的话来说,“有一段时间,精确轰炸的需要似乎已经彻底消失了”。然而,鸽子项目最终在海军研究实验室找到了安顿之所,改名为 ORCON(“生物控制”的简称),研究一直持续到战后的20世纪50年代。


斯金纳认为这个概念已经证明可行,在20世纪50年代末,他自豪地写道:“可以说,用生物来制导,不再是一个疯狂的想法。”虽然可行,但已经不合时宜。关键是他们发现了塑造:通过简单奖励来灌输复杂行为,奖励一连串近似的行为。“这使得塑造动物的行为成为可能,”斯金纳写道,“就像雕塑家捏黏土一样。”这个想法,以及这个术语,将在斯金纳的职业生涯中扮演关键角色。他从一开始就意识到,它对商业和家庭生活都有影响。


他写道:“其中一些(强化程序)类似工业中广泛使用的不固定的日工资或 计件工资;还有一些类似赌博机中精心设计的偶然事件,具有诱导持续行为的能力,让人欲罢不能。”他还认为强化对养育子女可能产生显著影响:“对强化的科学分析有助于更好地理解人际关系。无论是否有意,我们几乎总是在强化他人的行为。”斯金纳指出,父母的注意力是一个强大的强化因素,父母如果对礼貌的要求反应迟钝,就可能在不知不觉中训练孩子变得烦人和爱出风头。(他说,补救方法是对可接受的吸引注意力的行为——而不是大喊大叫或不礼貌的行为——做出更迅速、更一致的回应。)


也许最具预言性的是,斯金纳认为,基于他的研究发现的原理,广义的教育,无论是针对人还是动物,可能会成为一个严格的、客观的领域,这个领域有可能实现飞跃。正如他所说:“人们常说,教学是一门艺术,但我们越来越有理由希望它最终会成为一门科学。”斯金纳可能比他预想的更正确。在21世纪,机器学习专家也可能会使用“塑造”这个术语,而且用法同心理学家一样。对奖励的研究,尤其是如何战略性地管理奖励以获得你想要的行为,而不是你不想要的行为,的确已成为一门严格的定量科学,尽管可能不是像斯金纳想象的那样针对生物学习者。


 “试错法”这个短语可能是苏格兰哲学家亚历山大·贝恩(Alexander Bain)在1855年创造的,用来描述人类和动物是如何学习。(他创造的另一个短语—— “探索实验”——也很贴切,但似乎没有流行起来。)


从最基本的角度来说,强化学习是通过试错学习,这种试错(也可以说是探索)最简单的算法形式是所谓的“ε-贪婪”(厄普西隆―贪婪)算法。希腊字母 ε在数学上常用来表示“一点点”,ε-贪婪的意思就是“贪婪,除了一点点时间外”。一个按照ε-贪婪运行的自主体,大部分时间——比如说,99%——会根据到目前为止的有限经验,采取它认为能带来最大收益的行动。但是偶尔——例如,1%——会完全随机地尝试一些东西。比方说,在雅达利游戏中,偶尔随机敲击按钮,看看会发生什么。


如何用这种探索行为学习,有许多不同的风格,但基本想法是相同的——反复学习,多做让你得到奖励的事情,少做让你受惩罚的事情。你可以尝试显式地理解世界是如何运作的(“基于模型的”强化学习),或者打磨你的直觉(“无模型的”强化学习)来做到这一点。你也可以通过学习某种状态或行为能带来多少收益来做到这一点(“价值”学习),或者只需知道哪些策略总体上做得更好(“策略”学习)。不管怎样,几乎所有方法都是基于这样一个想法:首先偶然成功,然后倾向于去做更多看起来有效的事情。


事实证明,有些任务比其他任务更适用这种方法。


例如,在像《太空入侵者》这样的游戏中,成群的敌人向你扑来,你所能做的就是左移、右移和射击。随机敲击按钮可能有机会干掉几个游戏角色,每个角色都值几分,这些初步的分数就可以用来启动学习过程,通过学习,某些行为模式得到加强,更好的策略得到发展。例如,你可能会发现,只有射击才会得分,所以你会更频繁地射击,得分也会更多。这类游戏一般都有“密集”的奖励,从而相对容易学习。


在其他游戏中,比如国际象棋,奖励不是那么立竿见影,但它们仍然是确定的。一盘棋要么输要么赢要么和棋,一般几十步,几乎不可能下到几百步。即使你对策略一无所知,只会在棋盘上随意摆弄,至少你很快就会知道你是赢了、输了还是和棋。


然而,在许多情况下,获得任何收益都是奇迹。斯金纳就有亲身体会,他在奖励鸽子在迷你保龄球馆击球时发现了这一点。鸽子不知道它面对的是什么游戏,可能需要几年时间才能做出正确行为。当然,它(和斯金纳)在那之前早就饿死了。


机械学习者也是如此。例如,让人形机器人将足球踢进网,可能需要对几十个关节施加成千上万次精确的扭矩,所有这些都必须完美协调。很难想象机器人随意转动几十个关节能直立起来,与球进行有意义的接触更难,更不要说将球送入网。


强化学习研究人员称这个为稀疏奖励问题,或者更简洁地称为稀疏问题。 如果是根据最终目标或与最终目标相当接近的东西来给奖励,那么人们基本上只能等待,直到随机按按钮或动作产生预期的效果。数学可以证明,大多数强化学习算法最终都会实现,但实际上,可能在太阳毁灭后很久才会实现。如果你试图训练一个围棋程序来击败世界冠军,而世界冠军每次投子认输你都奖励它1分,否则就给0分,你将会等很长时间。


稀疏问题还有安全隐患。如果你打算利用ε-贪婪强化学习开发一种能力极强的超智能 AI,并且决定,如果它能治愈癌症,你就奖励它1分,如果它不能治愈癌症,得0分,那你得小心,因为在它得到第一个奖励之前,它将不得不做大量随机尝试。其中许多尝试都很笨拙。


和布朗大学的迈克尔·利特曼(Michael Littman)聊天时,我问他,他对强化学习的研究对他教育子女有没有帮助。他立刻想到了稀疏问题。他曾和妻子开玩笑说要对儿子使用稀疏奖励:“这样怎么样?在他学会说中文前,我们不要给他东西吃。那会是很好的激励手段!我们看看这行不行得通!”利特曼笑了。“我妻子头脑非常清醒……她说:‘不,我们不玩这个游戏。’”


同斯金纳一样,利特曼当然知道不能那样做。事实上,稀疏问题已经促使强化学习研究者去追溯斯金纳的时代,他们相当直接地借鉴了他的建议。具体来说,他关于塑造的想法已经启发了两种不同但又相互交织的思想:一种是关于课程,另一种是关于激励。


(本文摘编自《人机对齐:如何让人工智能学习人类价值观》的“塑造”一章,配图和标题为编者所加)


图片

📚 书名:人机对齐:如何让人工智能学习人类价值观

💁‍♂️ 作者:[美]布莱恩·克里斯汀

译者:唐璐


内容简介


如今的“机器学习”系统已具备非凡能力,能够在各种场合代替我们看和听,并代表我们做决定。但是警钟已经敲响。随着机器学习飞速发展,人们的担忧也在与日俱增。如果我们训练的人工智能(AI)做的事情与我们真正的目的不符,就会引发潜在的风险和伦理问题。研究人员称之为对齐问题(the alignment problem)。

畅销书作家布莱恩·克里斯汀用生动的笔调,清晰阐释了AI与我们息息相关的问题。在书中,我们将认识第一批积极应对对齐问题的学者,了解他们为了避免AI发展的局面失控,付出的卓绝努力和雄心勃勃的计划。克里斯汀不仅精练地描绘了机器学习的发展史,并且亲自深入科研一线同科学家对话,准确呈现了机器学习最前沿的进展。读者可以清晰认识到,对齐问题研究的成败,将对人类的未来产生决定性影响。对齐问题还是一面镜子,将人类自身的偏见和盲点暴露出来,让我们看清自己从未阐明的假设和经常自相矛盾的目标。这是一部精彩纷呈的跨学科史诗,不仅审视了人类的科技,也审视了人类的文化,时而让人沮丧,时而又柳暗花明。