Anthropic创始人：给模型正确的方向，但不要告诉它们应该如何学习

ZPotentials

2025-01-03 14:00发布于福建科技领域创作者

图片来源：Lex Clips

Z Highlights

当你用正确的方式优化模型，给模型指明正确的方向，无论什么问题，它们都会倾尽全力去学习，去解决问题。
如果你的愿景足够吸引人，如果你能创建一个人们愿意加入的公司，一个实践合理做法的组织，同时还能在生态系统中保持其地位，那么其他人会效仿你。尤其当你做得比他们更好时，他们会被迫改变行为，这种影响比你作为下属去和他们争论要更具说服力。
一切的完美都只是由一群不完美的人在试图以不完美的方式追求一个永远无法完美实现的理想。

智能时代的导航者：揭秘OpenAI AI进化论

Lex：很多人对AI行业里的不同玩家充满好奇，其中一个元老级的存在就是OpenAI。你在OpenAI有多年的经验，能分享一下你在那里工作的经历和故事吗？

Dario Amodei：是的，我在OpenAI工作了大约五年。在最后的两年左右，我担任研究副总裁的职务，可以说，我和Ilya Sutskever是真正为研究方向奠定基调的关键人物之一。

大概是在 2016 年或 2017 年，我第一次开始真正相信，或者至少确认了自己对“scaling hypothesis（规模假设）”的信念。当时Ilya对我说的很重要的一句话：你需要明白的是，这些模型就是想学习，它们就是想学习。这句话非常经典，让人豁然开朗。

听到这句话后，我脑海中立刻浮现了一个清晰的画面：当你用正确的方式优化模型，给模型指明正确的方向，无论什么问题，它们都会倾尽全力去学习，去解决问题。这句话仿佛解答了我曾观察到的上千种现象，从那以后，我一直用这样的视角来看待人工智能模型的发展。

Lex：所以，基本上就是“不要阻碍它们”，让模型自己去学习并且解决问题。

Dario Amodei：是的，让它们自由发展，不要强加自己的想法或者告诉它们该如何学习。这其实和Rich Sutton在《The Bitter Lesson》中的观点，或者GERN提出的“scaling hypothesis”是一样的道理。我认为整体的规律就是这样的，我从Ilya和其他一些人那里得到了这种启发，比如Alec Radford，他完成了原始的 GPT1项目，然后大力推动它的发展。而我和我的合作者们则推动了GPT2、GPT3，以及RLHF（基于人类反馈的强化学习）的发展。这种方法试图在早期就解决一些安全性和耐久性的问题，比如debate和amplification，以及对可解释性的高度关注。

所以，这其实是安全性和扩展性的结合，主要是在2018年、2019年和2020年。那几年里，我和我的合作者们——其中很多后来成为Anthropic的联合创始人——确实拥有一个清晰的愿景，并为这个方向做出了推动。

Dario Amodei的AI革命：从OpenAI的功成名退到Anthropic的安全探索

Lex：那你为什么离职了？是什么让你决定离开的？

Dario Amodei：是这样的，我认为这和争取做到最好这个理念有关。在我于OpenAI的工作期间，我逐渐认可了“scaling hypothesis”的意义，同时也认识到安全性在这一假说中的重要性。Scaling hypothesis这一点，OpenAI的确是在积极接受的，而关于安全性的重要性，这从某种程度上一直是OpenAI信息传递的一部分。但在我多年工作的过程中，我对这些事情应该如何被引入世界，以及组织应该坚持怎样的原则，逐渐形成了一个明确的愿景。

坦白说，这其中有很多讨论，比如组织或公司应该采取什么行动。外界有很多关于此的误解，比如有人说我们离开是因为不想和微软打交道，这不是真的。尽管关于如何与微软达成合作协议确实有很多讨论和问题。还有人说我们离开是因为反对商业化，这也不是真的。我们开发了GPT3，这个模型就是用来商业化的，我也参与了商业化过程。

关键其实在于“怎么做”，在人类文明迈向强大人工智能的道路上，怎样的做法才是谨慎的、透明的、诚实的，能够建立组织和个人信任的？我们如何从现在走向未来？如何真正实现一个正确的发展愿景？如何让安全性不仅仅是一个用来吸引人才的宣传口号？

归根结底，如果你有一个明确的愿景，抛开其他任何人的愿景不谈，你应该带着你的愿景去努力实现它，试图与别人的愿景争论是非常低效的。也许你认为他们做得不对，甚至可能不够诚实，也许你是对的，也许不是。但更好的办法是带上一群你信任的人，一起去实现你的愿景。如果你的愿景足够吸引人，不论是从道德上还是市场上来说，如果你能创建一个人们愿意加入的公司，一个实践合理做法的组织，同时还能在生态系统中保持其地位，那么其他人会效仿你。

尤其当你做得比他们更好时，他们会被迫改变行为，这种影响比你作为下属去和他们争论要更具说服力。

Lex：因此，Anthropic就是这样一个“干净的实验”，因为它建立在具体的AI安全基础之上。

Dario Amodei：我们认为Anthropic就是一个基于AI安全具体实践的“干净实验”。当然，在这个过程中，我们肯定也犯过不少错误。完美的组织是不存在的，因为它需要面对一千名员工的各种不完美，也需要面对包括我在内的领导者的不完美，还需要应对那些被赋予监督领导者职责的人（比如董事会和长期利益信托）的不完美。这一切都只是由一群不完美的人在试图以不完美的方式追求一个永远无法完美实现的理想。这就是你选择加入时所接受的现实，也将永远是现实。

但“不完美”并不意味着就此放弃，我们依然可以在“更好”与“更坏”之间做出选择。希望我们能够做得足够好，从而开始建立一些整个行业都能实践的准则。我认为，未来多家公司都会取得成功，比如Anthropic会成功，我过去参与过的那些公司也会成功。虽然有些公司可能会比其他公司更成功，但这并不重要。重要的是，我们能够让行业的激励机制对齐，这一过程部分依靠“向上的竞争”，部分依靠诸如 RSP（负责任实践声明）之类的举措，还有部分依靠精确而适度的监管措施。

原视频：Dario Amodei on why he left OpenAI | Lex Fridman Podcast Clips

https://www.youtube.com/watch?v=FzkCLR378fE

编译：Jie Sun

查看原图 590K