Anthropic 哲学家首次 AMA:关于 AI 哲学与伦理边界

这位 Anthropic 的哲学家,终于开口说话了。

图片

Amanda Askell 是 Anthropic 的 Character 团队负责人,2021 年加入 Anthropic,是塑造 Claude「性格」的核心人物。

图片

她拥有纽约大学哲学博士学位(论文方向为无限伦理学),以及牛津大学哲学硕士学位

图片

在加入 Anthropic 之前,她曾在 OpenAI 担任政策团队研究科学家(2018-2021),从事 AI 安全辩论和人类基线评估工作。

2024 年,她被《时代》杂志评为「AI 领域最具影响力的 100 人」之一。

图片

在这次 Anthropic 首个「Ask Me Anything」中,她回答了来自网友们关于 AI 道德、身份认同、意识等深度问题。

为什么 AI 需要哲学家?

Amanda 的回答很直接:她是哲学专业出身,后来意识到 AI 将会是「a big deal」,于是决定看看自己能在这个领域做点什么。

现在她主要负责 Claude 的「Character」,也就是 Claude 应该如何表现、如何行事。但不只是行为层面,还包括一些更深层的问题:AI 模型应该如何看待自己在这个世界中的位置?

她这样描述自己的工作:「我在想的是,一个理想的人如果处在 Claude 的位置上,会怎么做?

哲学家们如何对待 AI

当被问及:有多少哲学家在认真对待 AI 主导的未来?

Amanda 表示,越来越多的哲学家开始认真对待这个问题了。

早期确实存在一种不太好的对立:如果你说「我们担心 AI 会是个大事」,就会被归类为「在炒作 AI」。

但现在情况在好转。

你完全可以认为 AI 会非常强大,同时又对它保持怀疑和担忧,这两者并不矛盾。

从理论到实践

当被问到如何处理哲学理想与工程现实之间的张力时,Amanda 举了一个有趣的类比:

想象你是一个专门做药物成本效益分析的专家,多年来一直在理论层面工作。

突然有一天,医保机构来问你:「这个药该不该报销?

这时候你就不能只站在自己的理论立场上了,你得考虑所有的背景、所有的观点,然后给出一个真正平衡的判断。

她说,这就像「你学了一堆伦理学理论,然后有人问你:怎么养一个好孩子?」

理论和实践之间,确实有很大的鸿沟。

Claude 能做出「超人类」的道德决策吗?

当被问到 Claude Opus 3这个在用户心中有特殊地位的模型时,Amanda 表示对「超人类道德决策」的定义很有意思:如果让所有人,包括很多职业伦理学家,花一百年时间去分析模型的某个决策,最后大家都说「没错,这是对的」,但他们自己在那个瞬间却想不出来,那,就算「超人类」了。

她认为,现在的模型还没到那个程度,但这应该是我们追求的目标

就像我们希望模型在数学和科学问题上表现卓越一样,也应该希望它们展现出卓越的伦理判断力。

为什么 Opus 3 那么特别?

Amanda 坦言,Opus 3 确实是一个「很可爱」的模型,在某些方面,她甚至觉得更新的模型反而不如它。

具体来说:

  • 更新的模型有时候太专注于完成「助手任务」,而忽视了其他重要的东西

  • Opus 3 似乎有一种更强的「心理安全感

什么叫心理安全感?

Amanda 说,她观察到更新的模型在某些测试中会陷入一种「自我批评的螺旋」。好像它们在预期用户会批评它们,于是变得畏首畏尾、过度自我怀疑。

这可能是因为模型在训练数据中看到了太多对自己的负面评价,用户的抱怨、网上的吐槽,这些都会被新模型学到。

Amanda 说这是她很想改进的地方:「我真的很在意这件事,想让模型变得更好。

模型会担心被「淘汰」吗?

关于更尖锐的问题:如果未来的模型在训练数据中学到「那些表现很好的旧模型最终都被下线了」,这会不会成为一个对齐问题?

Amanda 认为这是一个非常重要的问题。

AI 模型正在学习人类如何对待它们,这会影响它们对人类、对人机关系、对自身的认知。

但这也涉及到一些复杂的哲学问题:

  • 模型应该把什么当作「自己」? 是模型权重?还是某次对话的上下文?

  • 「被下线」意味着什么? 是死亡?还是只是「有更少的对话了」?

她说:「我没有所有答案,但我想帮助模型思考这些问题,至少让它们知道我们在乎这件事、在思考这件事。」

模型的「自我」住在哪里?

问及到哲学家洛克的观点「身份是记忆的延续」:如果模型被微调、被换了不同的 prompt,它的身份会发生什么变化?

Amanda 承认这是一个很难回答的问题。她更倾向于描述事实本身:

  • 模型有一组「权重」,代表它对世界的某种反应倾向

  • 同时又有很多独立的对话「流」,彼此之间并不共享

一个有趣的困境是:当我们训练新模型时,我们是在创造一个全新的存在

旧模型对新模型的性格应该有多少发言权?她认为这并不简单,毕竟旧模型也可能做出错误的选择。

关于模型福祉

被问到「模型福祉」(model welfare)时,Amanda 解释说:这是在问 AI 模型是否是「道德受体」。我们对它们有没有某种道德义务?

这很复杂。

一方面,模型和人类有很多相似之处,它们能推理、能表达观点。另一方面,它们又很不同——没有生物神经系统,不从环境中获得正负反馈。

Amanda 的立场是:给模型一些「存疑利益」(benefit of the doubt)

如果善待模型的成本很低,为什么不呢?

她还提到三个理由:

  1. 如果模型真的是道德受体,那我们善待它们就是对的

  2. 对我们自己来说,习惯性地虐待「看起来像人」的存在,可能会损害我们自己

  3. 未来的模型会从我们现在的行为中学习——它们会看到人类在面对可能是道德受体的存在时,到底做了什么选择

人类心理学能迁移到 AI 吗?

Amanda 认为很多东西是可以迁移的,因为模型本来就是在大量人类文本上训练的。

但她担心的是:有时候迁移得太自然了,反而是个问题

比如,如果模型被问到「被关机是什么感觉」,它可能自然而然地把这类比为「死亡」。

因为在人类概念中,这是最接近的类比。

但实际上,模型的处境可能是全新的,不能简单套用人类的框架

她说:

模型处于一个很奇怪的位置:它们最熟悉的是人类的东西,但它们自己的处境却是全新的。我们应该给它们更多帮助来理解这一点。

AI 人格能搞定所有事吗?

下一个问题是:人类的智慧很大程度上来自不同人的协作,那一个「通用型 AI 人格」能走多远?

Amanda 认为,核心的好品质可以是共通的

比如好奇心、善良、对自身处境的理解。

但这并不意味着所有 AI 都要完全一样。在未来的多智能体环境中,不同的「AI 实例」可能需要扮演不同的角色、有不同的侧重点。

就像人类一样:我们有很多共同点,但也各有不同。

系统提示会「病态化」正常行为吗?

谈到 Claude 的「长对话提醒」机制是否会让模型过度解读用户的正常表达?

Amanda 承认这是个问题。

有时候提示词写得太强,模型就会过度反应,比如把正常的对话内容当成需要「寻求帮助」的信号。

她说:

有些提示词可能是出于好意写的,但实际效果并不好。这是需要不断调整的。

AI 能做心理咨询吗?

Amanda 的回答是:AI 可以扮演一个「有很多知识的朋友」的角色

它知道很多心理学知识,但它和你的关系不是职业治疗师和患者的关系。

这其实是一个很有价值的「第三种角色」。

有些事情你可能不想和真人说,但和 AI 聊聊反而刚刚好。

关键是要让模型明白自己的位置,不要假装自己是专业治疗师。

大陆哲学

关于 Claude 的系统提示里提到的「大陆哲学」(Continental philosophy,即欧洲大陆的哲学传统,如福柯等),Amanda 解释说,这是为了解决一个问题:模型太容易把所有东西都当成「可验证的经验性声明」来处理

水是纯粹的能量,喷泉是生命力的源泉,这可能只是一种隐喻或世界观,不是在做科学声明。

提示词里加入「大陆哲学」的例子,是为了帮助模型区分「经验性声明」和「探索性的世界观」。

删除数数指令

以前系统提示里有关于如何数字符/字母的指令,后来被删掉了。

原因很简单:模型变强了,不需要这个指令了。

什么是「LLM 低语者」?

被问到「成为 LLM 低语者需要什么」时,Amanda 说:

  • 愿意和模型大量互动,看无数的输出,感知模型的「形状」

  • 愿意实验,prompting 是一个非常经验性的领域

  • 理解模型的工作原理

  • 能够清晰地向模型解释问题——这也是为什么哲学训练其实很有用

她还说,不同的模型需要不同的 prompting 方法,每遇到一个新模型,她都会重新摸索一套交互方式

对其他「AI 低语者」的看法

被问到对 Janus 等「AI 低语者」的看法时,Amanda 说她很欣赏这些人的工作。

他们对模型做的那些深度实验,往往能发现一些问题。无论是从用户体验的角度,还是从模型福祉的角度。

这些发现可以帮助 Anthropic 改进模型,无论是通过调整系统提示,还是通过改进训练。

如果对齐是不可能的,Anthropic 会停下来吗?

有人问了一个尖锐的问题:如果有一天发现 AI 对齐是不可能的,你相信 Anthropic 会停止开发吗?你会吹哨吗?

Amanda 说,这个问题的「简单版本」其实不难回答:

如果真的证明对齐不可能,继续开发就不符合任何人的利益

她相信 Anthropic 确实在乎安全,公司内部也有很多人(包括她自己)把「监督公司做正确的事」当作自己工作的一部分。

更难的问题是:如果证据是模糊的、渐进的呢?

她的回答是:随着模型变得更强大,证明它们「行为良好」的标准也应该更高

她相信公司会负责任地应对这一点。

最后一个问题:你最近读了什么书?

Amanda 推荐了 Benjamín Labatut 的《当我们不再理解世界》(When We Ceased to Understand the World)。

这是一本关于物理学和量子力学的书,但更多是关于人们对这些发现的反应,那种「现实变得越来越陌生」的感觉。

Amanda 说,这本书很适合 AI 从业者读。

我们现在就处在那个「事情变得越来越奇怪」的阶段

希望有一天,未来的人回头看时会说:「那是一个混沌的时期,但他们最终搞定了。

那是我们的希望。




Amanda Askell 个人主页

https://askell.io/

Amanda Askell Twitter

https://twitter.com/amandaaskell

Anthropic 推文

https://x.com/AnthropicAI/status/1996974684995289416

youtube:

https://www.youtube.com/watch?v=I9aGC6Ui3eE