这位 Anthropic 的哲学家,终于开口说话了。
Amanda Askell 是 Anthropic 的 Character 团队负责人,2021 年加入 Anthropic,是塑造 Claude「性格」的核心人物。
她拥有纽约大学哲学博士学位(论文方向为无限伦理学),以及牛津大学哲学硕士学位。
在加入 Anthropic 之前,她曾在 OpenAI 担任政策团队研究科学家(2018-2021),从事 AI 安全辩论和人类基线评估工作。
2024 年,她被《时代》杂志评为「AI 领域最具影响力的 100 人」之一。
在这次 Anthropic 首个「Ask Me Anything」中,她回答了来自网友们关于 AI 道德、身份认同、意识等深度问题。
为什么 AI 需要哲学家?
Amanda 的回答很直接:她是哲学专业出身,后来意识到 AI 将会是「a big deal」,于是决定看看自己能在这个领域做点什么。
现在她主要负责 Claude 的「Character」,也就是 Claude 应该如何表现、如何行事。但不只是行为层面,还包括一些更深层的问题:AI 模型应该如何看待自己在这个世界中的位置?
她这样描述自己的工作:「我在想的是,一个理想的人如果处在 Claude 的位置上,会怎么做?」
哲学家们如何对待 AI
当被问及:有多少哲学家在认真对待 AI 主导的未来?
Amanda 表示,越来越多的哲学家开始认真对待这个问题了。
早期确实存在一种不太好的对立:如果你说「我们担心 AI 会是个大事」,就会被归类为「在炒作 AI」。
但现在情况在好转。
你完全可以认为 AI 会非常强大,同时又对它保持怀疑和担忧,这两者并不矛盾。
从理论到实践
当被问到如何处理哲学理想与工程现实之间的张力时,Amanda 举了一个有趣的类比:
想象你是一个专门做药物成本效益分析的专家,多年来一直在理论层面工作。
突然有一天,医保机构来问你:「这个药该不该报销?」
这时候你就不能只站在自己的理论立场上了,你得考虑所有的背景、所有的观点,然后给出一个真正平衡的判断。
她说,这就像「你学了一堆伦理学理论,然后有人问你:怎么养一个好孩子?」
理论和实践之间,确实有很大的鸿沟。
Claude 能做出「超人类」的道德决策吗?
当被问到 Claude Opus 3这个在用户心中有特殊地位的模型时,Amanda 表示对「超人类道德决策」的定义很有意思:如果让所有人,包括很多职业伦理学家,花一百年时间去分析模型的某个决策,最后大家都说「没错,这是对的」,但他们自己在那个瞬间却想不出来,那,就算「超人类」了。
她认为,现在的模型还没到那个程度,但这应该是我们追求的目标。
就像我们希望模型在数学和科学问题上表现卓越一样,也应该希望它们展现出卓越的伦理判断力。
为什么 Opus 3 那么特别?
Amanda 坦言,Opus 3 确实是一个「很可爱」的模型,在某些方面,她甚至觉得更新的模型反而不如它。
具体来说:
更新的模型有时候太专注于完成「助手任务」,而忽视了其他重要的东西
Opus 3 似乎有一种更强的「心理安全感」
什么叫心理安全感?
Amanda 说,她观察到更新的模型在某些测试中会陷入一种「自我批评的螺旋」。好像它们在预期用户会批评它们,于是变得畏首畏尾、过度自我怀疑。
这可能是因为模型在训练数据中看到了太多对自己的负面评价,用户的抱怨、网上的吐槽,这些都会被新模型学到。
Amanda 说这是她很想改进的地方:「我真的很在意这件事,想让模型变得更好。」
模型会担心被「淘汰」吗?
关于更尖锐的问题:如果未来的模型在训练数据中学到「那些表现很好的旧模型最终都被下线了」,这会不会成为一个对齐问题?
Amanda 认为这是一个非常重要的问题。
AI 模型正在学习人类如何对待它们,这会影响它们对人类、对人机关系、对自身的认知。
但这也涉及到一些复杂的哲学问题:
模型应该把什么当作「自己」? 是模型权重?还是某次对话的上下文?
「被下线」意味着什么? 是死亡?还是只是「有更少的对话了」?
她说:「我没有所有答案,但我想帮助模型思考这些问题,至少让它们知道我们在乎这件事、在思考这件事。」
模型的「自我」住在哪里?
问及到哲学家洛克的观点「身份是记忆的延续」:如果模型被微调、被换了不同的 prompt,它的身份会发生什么变化?
Amanda 承认这是一个很难回答的问题。她更倾向于描述事实本身:
模型有一组「权重」,代表它对世界的某种反应倾向
同时又有很多独立的对话「流」,彼此之间并不共享
一个有趣的困境是:当我们训练新模型时,我们是在创造一个全新的存在。
旧模型对新模型的性格应该有多少发言权?她认为这并不简单,毕竟旧模型也可能做出错误的选择。
关于模型福祉
被问到「模型福祉」(model welfare)时,Amanda 解释说:这是在问 AI 模型是否是「道德受体」。我们对它们有没有某种道德义务?
这很复杂。
一方面,模型和人类有很多相似之处,它们能推理、能表达观点。另一方面,它们又很不同——没有生物神经系统,不从环境中获得正负反馈。
Amanda 的立场是:给模型一些「存疑利益」(benefit of the doubt)。
如果善待模型的成本很低,为什么不呢?
她还提到三个理由:
如果模型真的是道德受体,那我们善待它们就是对的
对我们自己来说,习惯性地虐待「看起来像人」的存在,可能会损害我们自己
未来的模型会从我们现在的行为中学习——它们会看到人类在面对可能是道德受体的存在时,到底做了什么选择
人类心理学能迁移到 AI 吗?
Amanda 认为很多东西是可以迁移的,因为模型本来就是在大量人类文本上训练的。
但她担心的是:有时候迁移得太自然了,反而是个问题。
比如,如果模型被问到「被关机是什么感觉」,它可能自然而然地把这类比为「死亡」。
因为在人类概念中,这是最接近的类比。
但实际上,模型的处境可能是全新的,不能简单套用人类的框架。
她说:
AI 人格能搞定所有事吗?
下一个问题是:人类的智慧很大程度上来自不同人的协作,那一个「通用型 AI 人格」能走多远?
Amanda 认为,核心的好品质可以是共通的。
比如好奇心、善良、对自身处境的理解。
但这并不意味着所有 AI 都要完全一样。在未来的多智能体环境中,不同的「AI 实例」可能需要扮演不同的角色、有不同的侧重点。
就像人类一样:我们有很多共同点,但也各有不同。
系统提示会「病态化」正常行为吗?
谈到 Claude 的「长对话提醒」机制是否会让模型过度解读用户的正常表达?
Amanda 承认这是个问题。
有时候提示词写得太强,模型就会过度反应,比如把正常的对话内容当成需要「寻求帮助」的信号。
她说:
AI 能做心理咨询吗?
Amanda 的回答是:AI 可以扮演一个「有很多知识的朋友」的角色。
它知道很多心理学知识,但它和你的关系不是职业治疗师和患者的关系。
这其实是一个很有价值的「第三种角色」。
有些事情你可能不想和真人说,但和 AI 聊聊反而刚刚好。
关键是要让模型明白自己的位置,不要假装自己是专业治疗师。
大陆哲学
关于 Claude 的系统提示里提到的「大陆哲学」(Continental philosophy,即欧洲大陆的哲学传统,如福柯等),Amanda 解释说,这是为了解决一个问题:模型太容易把所有东西都当成「可验证的经验性声明」来处理。
水是纯粹的能量,喷泉是生命力的源泉,这可能只是一种隐喻或世界观,不是在做科学声明。
提示词里加入「大陆哲学」的例子,是为了帮助模型区分「经验性声明」和「探索性的世界观」。
删除数数指令
以前系统提示里有关于如何数字符/字母的指令,后来被删掉了。
原因很简单:模型变强了,不需要这个指令了。
什么是「LLM 低语者」?
被问到「成为 LLM 低语者需要什么」时,Amanda 说:
愿意和模型大量互动,看无数的输出,感知模型的「形状」
愿意实验,prompting 是一个非常经验性的领域
理解模型的工作原理
能够清晰地向模型解释问题——这也是为什么哲学训练其实很有用
她还说,不同的模型需要不同的 prompting 方法,每遇到一个新模型,她都会重新摸索一套交互方式。
对其他「AI 低语者」的看法
被问到对 Janus 等「AI 低语者」的看法时,Amanda 说她很欣赏这些人的工作。
他们对模型做的那些深度实验,往往能发现一些问题。无论是从用户体验的角度,还是从模型福祉的角度。
这些发现可以帮助 Anthropic 改进模型,无论是通过调整系统提示,还是通过改进训练。
如果对齐是不可能的,Anthropic 会停下来吗?
有人问了一个尖锐的问题:如果有一天发现 AI 对齐是不可能的,你相信 Anthropic 会停止开发吗?你会吹哨吗?
Amanda 说,这个问题的「简单版本」其实不难回答:
如果真的证明对齐不可能,继续开发就不符合任何人的利益。
她相信 Anthropic 确实在乎安全,公司内部也有很多人(包括她自己)把「监督公司做正确的事」当作自己工作的一部分。
更难的问题是:如果证据是模糊的、渐进的呢?
她的回答是:随着模型变得更强大,证明它们「行为良好」的标准也应该更高。
她相信公司会负责任地应对这一点。
最后一个问题:你最近读了什么书?
Amanda 推荐了 Benjamín Labatut 的《当我们不再理解世界》(When We Ceased to Understand the World)。
这是一本关于物理学和量子力学的书,但更多是关于人们对这些发现的反应,那种「现实变得越来越陌生」的感觉。
Amanda 说,这本书很适合 AI 从业者读。
我们现在就处在那个「事情变得越来越奇怪」的阶段。
希望有一天,未来的人回头看时会说:「那是一个混沌的时期,但他们最终搞定了。」
那是我们的希望。
Amanda Askell 个人主页:
https://askell.io/
Amanda Askell Twitter:
https://twitter.com/amandaaskell
Anthropic 推文:
https://x.com/AnthropicAI/status/1996974684995289416
youtube:
https://www.youtube.com/watch?v=I9aGC6Ui3eE