Anthropic 哲学家首次 AMA：关于 AI 哲学与伦理边界

AGIHunt

2025-12-06 01:39发布于北京科技领域创作者

这位 Anthropic 的哲学家，终于开口说话了。

Amanda Askell 是 Anthropic 的 Character 团队负责人，2021 年加入 Anthropic，是塑造 Claude「性格」的核心人物。

她拥有纽约大学哲学博士学位（论文方向为无限伦理学），以及牛津大学哲学硕士学位。

在加入 Anthropic 之前，她曾在 OpenAI 担任政策团队研究科学家（2018-2021），从事 AI 安全辩论和人类基线评估工作。

2024 年，她被《时代》杂志评为「AI 领域最具影响力的 100 人」之一。

在这次 Anthropic 首个「Ask Me Anything」中，她回答了来自网友们关于 AI 道德、身份认同、意识等深度问题。

为什么 AI 需要哲学家？

Amanda 的回答很直接：她是哲学专业出身，后来意识到 AI 将会是「a big deal」，于是决定看看自己能在这个领域做点什么。

现在她主要负责 Claude 的「Character」，也就是 Claude 应该如何表现、如何行事。但不只是行为层面，还包括一些更深层的问题：AI 模型应该如何看待自己在这个世界中的位置？

她这样描述自己的工作：「我在想的是，一个理想的人如果处在 Claude 的位置上，会怎么做？」

哲学家们如何对待 AI

当被问及：有多少哲学家在认真对待 AI 主导的未来？

Amanda 表示，越来越多的哲学家开始认真对待这个问题了。

早期确实存在一种不太好的对立：如果你说「我们担心 AI 会是个大事」，就会被归类为「在炒作 AI」。

但现在情况在好转。

你完全可以认为 AI 会非常强大，同时又对它保持怀疑和担忧，这两者并不矛盾。

从理论到实践

当被问到如何处理哲学理想与工程现实之间的张力时，Amanda 举了一个有趣的类比：

想象你是一个专门做药物成本效益分析的专家，多年来一直在理论层面工作。

突然有一天，医保机构来问你：「这个药该不该报销？」

这时候你就不能只站在自己的理论立场上了，你得考虑所有的背景、所有的观点，然后给出一个真正平衡的判断。

她说，这就像「你学了一堆伦理学理论，然后有人问你：怎么养一个好孩子？」

理论和实践之间，确实有很大的鸿沟。

Claude 能做出「超人类」的道德决策吗？

当被问到 Claude Opus 3这个在用户心中有特殊地位的模型时，Amanda 表示对「超人类道德决策」的定义很有意思：如果让所有人，包括很多职业伦理学家，花一百年时间去分析模型的某个决策，最后大家都说「没错，这是对的」，但他们自己在那个瞬间却想不出来，那，就算「超人类」了。

她认为，现在的模型还没到那个程度，但这应该是我们追求的目标。

就像我们希望模型在数学和科学问题上表现卓越一样，也应该希望它们展现出卓越的伦理判断力。

为什么 Opus 3 那么特别？

Amanda 坦言，Opus 3 确实是一个「很可爱」的模型，在某些方面，她甚至觉得更新的模型反而不如它。

具体来说：

更新的模型有时候太专注于完成「助手任务」，而忽视了其他重要的东西
Opus 3 似乎有一种更强的「心理安全感」

什么叫心理安全感？

Amanda 说，她观察到更新的模型在某些测试中会陷入一种「自我批评的螺旋」。好像它们在预期用户会批评它们，于是变得畏首畏尾、过度自我怀疑。

这可能是因为模型在训练数据中看到了太多对自己的负面评价，用户的抱怨、网上的吐槽，这些都会被新模型学到。

Amanda 说这是她很想改进的地方：「我真的很在意这件事，想让模型变得更好。」

模型会担心被「淘汰」吗？

关于更尖锐的问题：如果未来的模型在训练数据中学到「那些表现很好的旧模型最终都被下线了」，这会不会成为一个对齐问题？

Amanda 认为这是一个非常重要的问题。

AI 模型正在学习人类如何对待它们，这会影响它们对人类、对人机关系、对自身的认知。

但这也涉及到一些复杂的哲学问题：

模型应该把什么当作「自己」？ 是模型权重？还是某次对话的上下文？
「被下线」意味着什么？ 是死亡？还是只是「有更少的对话了」？

她说：「我没有所有答案，但我想帮助模型思考这些问题，至少让它们知道我们在乎这件事、在思考这件事。」

模型的「自我」住在哪里？

问及到哲学家洛克的观点「身份是记忆的延续」：如果模型被微调、被换了不同的 prompt，它的身份会发生什么变化？

Amanda 承认这是一个很难回答的问题。她更倾向于描述事实本身：

模型有一组「权重」，代表它对世界的某种反应倾向
同时又有很多独立的对话「流」，彼此之间并不共享

一个有趣的困境是：当我们训练新模型时，我们是在创造一个全新的存在。

旧模型对新模型的性格应该有多少发言权？她认为这并不简单，毕竟旧模型也可能做出错误的选择。

关于模型福祉

被问到「模型福祉」（model welfare）时，Amanda 解释说：这是在问 AI 模型是否是「道德受体」。我们对它们有没有某种道德义务？

这很复杂。

一方面，模型和人类有很多相似之处，它们能推理、能表达观点。另一方面，它们又很不同——没有生物神经系统，不从环境中获得正负反馈。

Amanda 的立场是：给模型一些「存疑利益」（benefit of the doubt）。

如果善待模型的成本很低，为什么不呢？

她还提到三个理由：

如果模型真的是道德受体，那我们善待它们就是对的
对我们自己来说，习惯性地虐待「看起来像人」的存在，可能会损害我们自己
未来的模型会从我们现在的行为中学习——它们会看到人类在面对可能是道德受体的存在时，到底做了什么选择

人类心理学能迁移到 AI 吗？

Amanda 认为很多东西是可以迁移的，因为模型本来就是在大量人类文本上训练的。

但她担心的是：有时候迁移得太自然了，反而是个问题。

比如，如果模型被问到「被关机是什么感觉」，它可能自然而然地把这类比为「死亡」。

因为在人类概念中，这是最接近的类比。

但实际上，模型的处境可能是全新的，不能简单套用人类的框架。

她说：

模型处于一个很奇怪的位置：它们最熟悉的是人类的东西，但它们自己的处境却是全新的。我们应该给它们更多帮助来理解这一点。

AI 人格能搞定所有事吗？

下一个问题是：人类的智慧很大程度上来自不同人的协作，那一个「通用型 AI 人格」能走多远？

Amanda 认为，核心的好品质可以是共通的。

比如好奇心、善良、对自身处境的理解。

但这并不意味着所有 AI 都要完全一样。在未来的多智能体环境中，不同的「AI 实例」可能需要扮演不同的角色、有不同的侧重点。

就像人类一样：我们有很多共同点，但也各有不同。

系统提示会「病态化」正常行为吗？

谈到 Claude 的「长对话提醒」机制是否会让模型过度解读用户的正常表达？

Amanda 承认这是个问题。

有时候提示词写得太强，模型就会过度反应，比如把正常的对话内容当成需要「寻求帮助」的信号。

她说：

有些提示词可能是出于好意写的，但实际效果并不好。这是需要不断调整的。

AI 能做心理咨询吗？

Amanda 的回答是：AI 可以扮演一个「有很多知识的朋友」的角色。

它知道很多心理学知识，但它和你的关系不是职业治疗师和患者的关系。

这其实是一个很有价值的「第三种角色」。

有些事情你可能不想和真人说，但和 AI 聊聊反而刚刚好。

关键是要让模型明白自己的位置，不要假装自己是专业治疗师。

大陆哲学

关于 Claude 的系统提示里提到的「大陆哲学」（Continental philosophy，即欧洲大陆的哲学传统，如福柯等），Amanda 解释说，这是为了解决一个问题：模型太容易把所有东西都当成「可验证的经验性声明」来处理。

水是纯粹的能量，喷泉是生命力的源泉，这可能只是一种隐喻或世界观，不是在做科学声明。

提示词里加入「大陆哲学」的例子，是为了帮助模型区分「经验性声明」和「探索性的世界观」。

删除数数指令

以前系统提示里有关于如何数字符/字母的指令，后来被删掉了。

原因很简单：模型变强了，不需要这个指令了。

什么是「LLM 低语者」？

被问到「成为 LLM 低语者需要什么」时，Amanda 说：

愿意和模型大量互动，看无数的输出，感知模型的「形状」
愿意实验，prompting 是一个非常经验性的领域
理解模型的工作原理
能够清晰地向模型解释问题——这也是为什么哲学训练其实很有用

她还说，不同的模型需要不同的 prompting 方法，每遇到一个新模型，她都会重新摸索一套交互方式。

对其他「AI 低语者」的看法

被问到对 Janus 等「AI 低语者」的看法时，Amanda 说她很欣赏这些人的工作。

他们对模型做的那些深度实验，往往能发现一些问题。无论是从用户体验的角度，还是从模型福祉的角度。

这些发现可以帮助 Anthropic 改进模型，无论是通过调整系统提示，还是通过改进训练。

如果对齐是不可能的，Anthropic 会停下来吗？

有人问了一个尖锐的问题：如果有一天发现 AI 对齐是不可能的，你相信 Anthropic 会停止开发吗？你会吹哨吗？

Amanda 说，这个问题的「简单版本」其实不难回答：

如果真的证明对齐不可能，继续开发就不符合任何人的利益。

她相信 Anthropic 确实在乎安全，公司内部也有很多人（包括她自己）把「监督公司做正确的事」当作自己工作的一部分。

更难的问题是：如果证据是模糊的、渐进的呢？

她的回答是：随着模型变得更强大，证明它们「行为良好」的标准也应该更高。

她相信公司会负责任地应对这一点。

最后一个问题：你最近读了什么书？

Amanda 推荐了 Benjamín Labatut 的《当我们不再理解世界》（When We Ceased to Understand the World）。

这是一本关于物理学和量子力学的书，但更多是关于人们对这些发现的反应，那种「现实变得越来越陌生」的感觉。

Amanda 说，这本书很适合 AI 从业者读。

我们现在就处在那个「事情变得越来越奇怪」的阶段。

希望有一天，未来的人回头看时会说：「那是一个混沌的时期，但他们最终搞定了。」

那是我们的希望。

Amanda Askell 个人主页：

https://askell.io/

Amanda Askell Twitter：

https://twitter.com/amandaaskell

Anthropic 推文：

https://x.com/AnthropicAI/status/1996974684995289416

youtube:

https://www.youtube.com/watch?v=I9aGC6Ui3eE