专访 Mistral CEO:如果模型足够智能,我们将会达到奇点

图片
在最新一期的 No Priors 节目中,硅谷投资人 Sarah Guo 与 Elad Gil 邀请了 Mistral 的 Co-founder & CEO Arthur Mensch 进行了一次专访,共同探讨了该公司在 AI 领域的发展和未来展望,这次深入的对话揭示了 Mistral 作为一家新兴 AI 公司的独特视角和使命,包括:
欧洲 AI 生态系统的崛起:Arthur Mensch 强调了欧洲在 AI 领域的潜力。他指出,欧洲拥有出色的数学家和人才,并且正迅速崭露头角,构建起与硅谷竞争的生态系统。
AI 模型的未来:Mistral 是一家专注于 AI 模型开发的公司,Arthur Mensch 分享了他们的愿景,包括打造更小、更高效的模型以适应不同应用场景,并实现更广泛的智能化。
AI 的安全和伦理:在讨论开源 AI 模型时,他强调了安全和道德问题的重要性。同时,他还解释了 Mistral 如何通过模块化的方法来实现 AI 模型的过滤和管理,以确保合规性和安全性。
Sarah Guo: 
在六个月前我们见面的时候,你刚刚离开 DeepMind,开始了 Mistral。要敢于面对 OpenAI、Google 等巨头在资金和计算能力上的规模,然后说我们要参与这场比赛,这需要真正的勇气,请告诉我们创办 Mistral 的灵感来源。
Arthur Mensch:
Miguel 和 Timote 在这个领域相对早期开始了研究,我们已经从事机器学习已经有了 10 年,但我们不知道从哪里入手,如何用有限的计算资源和资金来创建一个优秀的模型。虽然资源并不是那么有限,但相对于我们之前的工作来说,还是有限的。因此,我们认为在欧洲创立一家专注于改进 AI 、专注于制定 40 Rai 和专注于推动开源 AI 的独立公司将是一个很好的机会。
Sarah Guo:
也许我们可以谈谈每一个方面。那么,在你成为《Chancellor Scaling Loss》论文的合著作者之前,在 DeepMind 工作之前的 10 年里,你早期研究了专家混合模型的思想。你能稍微谈谈在 DeepMind 时你的研究方向吗?
Arthur Mensch: 
我有优化背景。所以过去 10 年来,我的焦点一直是使算法更高效,并更好地利用我们拥有的数据,以创建具有良好预测性能的模型。因此,当我来到 DeepMind 时,我加入了当时有 10 名成员的 LLM 团队。
我很快开始研究检索增强模型。与我的朋友 Seb Borrow 合作撰写了一篇名为“retro”的论文,他仍然在 DeepMind 工作。关键在于在预训练期间使用非常大的数据库,以便我们不会将知识强加给模型本身。我们告诉模型,它无论如何都可以访问外部内存。这工作得相当不错。我们实际上能够降低困惑度,可以说这是在制作 LLM 时要处理的问题。当时,检索方法并不是主流方法。现在它已经完全成为主流。
这是我做的第一个项目。我也很快开始研究稀疏专家混合模型,因为这与我博士后研究的主题——最优输运(optimal transport)相关。最优输运是一种设置,你需要对一些标记进行评估,将它们分配给设备,并确保在它们之间有一些良好的分配,以确保设备不会看到过多的标记。事实证明,使用最优输运是进行正确分配的一种数学框架。
因此,我开始将这个方法引入到稀疏专家混合模型中,并很快开始转向规模损失(scaling loss)的研究。如何实际上采取在特定规模上工作的方法,然后尝试预测随着规模的增加、固定筹码的数量和观察到的数据量,该方法将如何演化。
这是我与许多同事一起完成的工作,关注的是如何适应对于密集参数和密集模型的规模损失,以便不仅与模型大小有关地预测性能,还与专家数量有关。因为那是我工作的第二个方向。接着,我们着手进行了 Chinchilla 的研究,我认为这是 LLM 历史上的一项重大论文,我们还有 Jordan Lo 和其他许多人参与。
基本情况是,由于 2020 年的一篇论文执行得不太好,每个人都在对太少的标记进行模型训练。我们观察到实际上可以进行更正。因此,与其在很少的标记上训练非常大的模型,你实际上应该随着模型大小的增加而增加标记的数量,如果你考虑一下,这是有道理的,因为你不希望一个无限大小的模型查看有限数量的标记。同样地,你也不希望有一个有限大小的模型查看无限数量的标记。
Sarah Guo:
这必须要有一定的比例。
Arthur Mensch: 
确切如此。这是我们经验性地展示的一点。我认为它被迅速采纳是因为它是一个纯粹的胜利。对于相同的计算量,你将得到一个性能更好的模型,而且一个更便宜四倍的模型。因此,这肯定是一个收益。事实证明,我们还没有走得够远。那就是我们在此时所做的。我们意识到实际上在更多地压缩模型上也有很多机会。
我们已经看到 LLM 可以做到这一点。我们在 Mistral 7B 模型中展示的是,我们并没有耳聋;我们距离压缩的极限还远。我们通过制作一个非常小的模型来进行了一些修正,这个模型非常便宜,可以在 MacBook Pro 上运行得非常快,但仍然足够好用。这是公司中我们取得的第一个成就。
Elad Gil: 
我认为很多人对 Mistral 发布 7B 模型印象深刻,因为 a) 你们做得非常快,只用了几个月的时间;b),如果你看看实际运行这些模型的成本,显然有建立模型的培训方面,显然有建立模型的培训方面,但然后还有推理。
如果你是 OpenAI 的用户,或者是 LLM 的用户,日常成本中有很大一部分是运行模型的成本,推理成本,而这通常也受到模型大小的影响。因此,通过推出这些性能非常好的小型模型,真的改变了人们对于可能性的看法。
在性能方面,你能分享一些你认为性能会走向何方,或者你如何考虑模型大小,无论是更小但性能更好的模型,还是你们是否计划在未来构建像 GPT-4 或 GPT-5 这样的非常大型模型?
Arthur Mensch: 
当然。我认为在 2022 年、2021 年,有一些公司真的专注于推动模型的性能。如果你想提升模型的性能,你不太关心推理,因为你不会使用模型,你只是想知道它们是否表现良好。这仅仅是出于验证的目的。但是,当你开始考虑部署和支持下游应用程序时,就需要考虑运行时的成本。
因此,你不仅关心需要付出的前期费用,还关心运行时成本。所以我认为你在推理成本和清理成本之间放置的系数确实是与业务相关的。作为一个打算建立有效商业模式的公司,我们非常关注推理成本。我们认为,推理成本非常重要,要达到推理非常便宜的状态,这样你就可以在所有用例中运行 AI LLM,而不会受到成本的阻碍,这是目前最大模型的情况。这绝对是我们考虑的一点。
我们知道我们可以制作一个性能超强的7十亿次方模型。这是肯定的。这绝对不是故事的终点。现在的问题是,我们会训练更大的模型吗?答案显然是肯定的。某个模型大小仍然有限制。我认为这个限制被低估了,但如果你想要更多的推理能力,你确实需要使用更大的模型。另一个关于使用更大模型的好处是,它使你能够训练更小但更好的模型,这是通过各种技术,如蒸馏或合成数据生成等来实现的。所以这两者是相关的。如果你想制作非常强大的小型模型,你确实需要更大的模型。我们正在研发更大的模型。
Sarah Guo: 
你能告诉我们你对数据和注释的方法吗?因为我们已经讨论了其他两个方面。
Arthur Mensch:
我们已经谈到了计算,显然数据对我们非常重要,因为我们从开放网络获取数据,我们在这方面做了很多工作,我认为我们在获取一些好数据方面做得很好。数据质量确实是决定模型质量的关键因素。我是说,数据算法也很重要,但数据质量也非常重要。
我们非常注重这一点,我认为我们拥有非常好的数据集,这是肯定的。数据标注是一个不同的话题,我认为它与预训练不太相关。当你预训练一个模型时,你真的希望拥有最纯粹的知识,最高质量的数据。但当你想要调整模型并教它按照指令行事时,这对于许多用例是有用的,因为它使得模型可控。你确实需要有一定数量的人工标注或潜在的机器标注。
这是我们开始着手处理的事情。我们不是世界上最专业的人,不是最擅长制定好的指令来微调模型的人,但我们确实正在不断提升,团队越来越擅长这方面的工作。
Sarah Guo: 
我们还没有谈到的一件事是,你们是一家开源公司,这与当今处于技术前沿的其他实验室非常不同。为什么这么重要?
Arthur Mensch: 
如果你回顾过去 10 年机器学习的历史,它发展得非常迅速。我的意思是,我们从一个简单的猫狗检测器发展到了几乎看起来像人类智能的东西。重要的是要记住这是如何发生的。这是因为有许多学术实验室,有许多工业实验室,实际上在不同的问题上投入了更多的资金。
几乎在 2020 年之前,存在充分的交流,几乎完全透明。无论在哪个实验室做了什么,甚至在竞争对手的实验室,都会在 NIPS 上发布,都会在 ICML 上发布。每六个月,我们都会聚在一起,获取新的Idea,互相分享,每个人都在其他人的工作基础上进行建设。这就是我们从可能有趣的东西发展到非常有趣的东西的方式。
问题是大约在 2020 年左右,一些公司开始在某些领域处于领先地位,并意识到某些价值可以积累起来,然后在那一点上,不透明度重新回到了这个领域。我认为这是在软件领域已经观察到的循环,即开放性和封闭性之间的循环。我们正在再次观察到这一现象。
我们认为现在转向这种无法回头的情况还为时过早,而且我们认为这对于科学来说确实是有害的。因为目前这项技术仍然没有完全发展起来,记忆机制不是很清晰,因果机制也不太清楚,不是非常可控。还有很多基础问题,我是说,它是不完全的。还有很多事情要做。我们仍然需要发明新的技术,但如果没有人谈论它,如果要发明新的技术,你仍然需要投入大量资金来进行大规模尝试,而拥有资金的少数几家公司拒绝交流,这是我们深感遗憾的事情,也是我们正在努力改变的事情,因为我们确实有相当多的资金可以用来进行计算。
我们有一些好的想法,我们知道有一个等待 AI 开源公司出现的庞大社区,我们非常感谢 Meta 正在朝着这个方向发展,通过做我们所做的事情,通过更加开放地展示我们创建的技术,我们希望引导社区进入一个更好的状态,事情更顺畅,更安全,因为有更多的审查,我们的意图是占据这个位置,改变游戏规则,因为我们认为现在的情况发展得不太妥当。
Elad Gil: 
这非常有趣,因为如果你看看当前的讨论,那些真正的大科技公司声称开源 AI 是危险的,感觉上就像是一种监管被控制的方式,对吧?他们希望监管者介入,以便他们可以限制创新,控制整个行业。而实际情况是,如果你看看全球健康、全球公平,开源是人类最大的潜在方式之一,以透明和开放的方式让所有人都从这项技术中受益,人们可以真正理解和看到如何处理安全性和政策,以及如何正确地思考在开源环境中考虑安全性的方式。
Arthur Mensch: 
我认为我们从一个非常务实的角度来看待这个问题。问题是,今天开源大型语言模型是否危险?它实际上会使坏人滥用模型吗?它是否会给他们提供边际能力,以追求他们的坏行为?
我认为这个问题的答案是否定的,这是我的结论。我们已经看到了很多关于武器、核恐怖主义等方面的讨论。有趣的是,如果你实际上假定这些论点是出于善意的,我认为在许多情况下,人们是出于善意的。这是我们始终要做出的假设。如果你试图推敲他们的论点,我们做过这样的尝试。
我们意识到实际上没有什么根据。没有什么表明大型语言模型在寻找关于可能导致不良使用的主题的知识方面边际上比搜索引擎更好。另一件事是,甚至没有证明,而且几乎肯定不是这种情况,即知识不是我们正在谈论的实际滥用的瓶颈。
所以我们有两个问题。为了证明开源大型语言模型实际上是不安全的,你需要证明它们比网络搜索和巨大数据库具有更大的能力,并且知识是创建的瓶颈。在这两种情况下,对这两个问题的回答都是否定的。
这意味着我们相信我们今天可以开源模型。实际上,这是将事情置于高度审查下的最佳方式,以便为潜在的新一代模型做好准备,这些模型可能非常智能。在那种情况下,我认为我们可以重新讨论这些前提。今天我们真正在谈论的是对广泛可在网上获取的知识进行压缩。
从边际上说,我们并没有创造比以前更危险的东西,所以我认为这确实是一个权衡,有一个需要进行动态对话的过程,这就是我们在AI安全峰会上讨论的内容,当然,随着模型能力的不断提升,这个问题需要重新审视,但今天禁止开源、阻止它发生,实际上是一种方式,即使那些从中受益的行为者不希望它发生,也是在强化监管捕获,因为设计上,如果你实际上禁止小型行为者以最有效的方式,即开源方式做事情,你实际上在为更大的现有公司的生活提供便利,这肯定是有害的。
Sarah Guo: 
你如何看待提出的任意计算和规模限制?
Arthur Mensch: 
我不太明白他们是怎么提出这个阈值的。按照任何标准,这是一个很高的阈值,因为如果你假定这是 float  64,实际上给出了大约 3 亿亿次浮点计算,所以这很高,它是非常任意的,因为没人告诉你会在 10 的 26 次方之后遇到不好的表现,这绝对没有被证明。
与规模相关的能力也非常粗略,因为它真的取决于数据集,这是非常重要的。如果你的模型是在生成生物学方面的内容,那么你肯定可以产生一些化合物。所以这是一种预期的观察。所以在生物学领域,他们确实制定了一个特定的计算预算。我认为你可以看到生物武器的情节正在建立起来。但这完全不合适,我们应该关注能力而不是市场前提条件。我认为在某种程度上,这个问题仍然存在共识。
每个人都知道这是不完美的,它只是一个代理变量,也许与之相关性相当大。但是,我们确实需要就如何衡量能力达成一致,就我们认为哪些能力是危险的达成一致。我认为在这个问题上,我们彼此之间并不达成一致。但这些应该是判断的标准,而不是市场前提条件或你进行的浮点计算的数量。
Elad Gil: 
你知道为什么人们如此关注生物武器吗?我问这个问题是因为我在做了将近十年的生物学工作。当我看到一些构建病毒的复杂性或实际执行这些操作的复杂性时,我对社区为什么会一直提到这个特定例子感到惊讶。你有没有对人们不断提出这个问题的原因有所了解?是因为实际上很难进行转化。这不是某种数字化的东西,可以随意操纵的。
Arthur Mensch: 
我认为这是一个非常有趣的问题。老实说,我不知道答案,这几乎是关于认识论的问题。所以这个想法是怎么产生的,政策制定者是如何增强它的,国家安全是如何增强它的。
我认为它某种程度上是从 GPT-4 之类的东西开始的,他们生成了一些化学物质,然后他们说了一句小小的话,表示也许这不是我们想要走的方向,我们不想要一个可以思考化学物质的模型。
所讨论的化合物并不危险,但然后他们做出了这个评论,这肯定是预期的,如果你在生物学上训练文章,你肯定会能够产生一些化学物质。所以这是一个预期的观察,然后我知道某种程度上人们在这个基础上建立了一些东西。
没有观察到任何科学研究以适当的形式发表,但然后政策文件开始引用非科学性的文件,声称这些是科学证据,生物武器的说法是真实的。然后政策文件开始引用其他政策文件,然后你突然间就有了大约 50 份文件,声称生物武器肯定会毁掉我们,政策制定者就是这样阅读的。我认为这就是我们今天的情况。所以有一些建设需要进行。不幸的是,我认为开源社区还没有足够大声,因为他们没有看到这一点。但现在,这种情况正在改变,我为此感到非常高兴。
Sarah Guo:
我认为这是一种模仿。你可以看到,世界刚刚经历了 Covid-19 大流行。
Arthur Mensch: 
我的意思是,Covid 肯定在这个叙述中扮演了角色。我认为那绝对是一种创伤,有 3000 万人死亡。这绝对是我们不希望再次发生的事情。我不认为 AI 会触发下一次大流行。气候变化总是会成为问题。这就是它的方式。这也可能是焦点应该放在的地方,而不是假设性、未经证实的生物风险。
Sarah Guo: 
如果在可见的未来,生物武器不是一个务实的问题,那么围绕我们希望我们的 AI 模型实际生成的内容,确实存在着真正的担忧。你如何看待这个问题?
Arthur Mensch:
我认为这是一个非常有效的担忧。模型可以输出任何类型的文本。在许多情况下,你不希望它输出任何类型的文本。所以当你构建一个应用程序时,你需要考虑要放在模型输出上的限制,可能还包括输入。所以你需要有一个系统,过滤掉不合法的输入,你认为不合法的输出,或者不合法的输入。在我们看来,你可以创建一个模块化的架构,应用程序制作者可以使用,这意味着你提供了一个原始模型,该模型没有被删除,以禁止其输出某些内容。
然后你在其上提供新的过滤器,可以检测我们不想要的输出。这可以是色情内容,可以是仇恨言论,例如,当你拥有一个聊天机器人时,你希望禁止这些内容。但这些内容你不希望从原始模型中删除,因为如果你想要使用原始模型进行内容审核,你希望你的模型知道这些内容。
所以实际上,假设模型应该表现良好是错误的。你需要假设模型应该了解一切。然后在此基础上,有一些模块来进行审核和监督模型。这就是我们对待这个问题的方式。这是一种赋予应用程序制作者制作一个受到良好监管的应用程序的方式。我们认为,我们有责任制作非常好的模块,以正确地监管模型。这是平台的一部分。
我们认为,应该在不同的初创公司之间有一些健康的竞争,这些公司致力于监管模型的工作。你建立这种健康竞争的方式不是通过相信一些公司来做好他们自己的安全工作,而是通过要求应用程序制作者遵守一些规则。例如,聊天机器人不应该输出仇恨言论。
现在应用程序制作者需要找到一个良好的监管解决方案。现在你有一个竞争,你有一些经济利益,可以提供最好的监管解决方案。所以这是我们认为生态系统应该运作的方式,这也是我们定位自己的方式,这也是我们构建平台的方式,具有模块化的过滤器和控制模型网络的模块机制。
Elad Gil: 
你们考虑得很周到,这真是太好了。我认为当人们谈论安全性时,他们实际上在谈论三个主题,有时候他们会互相忽略。
Elad Gil: 
第一类是这种基于文本的风险的审核或文本基础的风险,这就是对仇恨内容、非法内容、偏见等的风险。第二类是我们已经讨论过的,即物理风险,这是指生物武器、AI 或其它以某种方式干扰的能力。第三类是关于生存或物种风险的,当人们开始谈论 AGI 和新形式的生命、资源竞争或聚集等问题时。
Arthur Mensch: 
首先,我认为很重要的是要分别讨论这三个方面,并强调因为对于第一个方面有解决方案,对于第二个方面,目前没有证据表明它实际存在,也没有证据表明它将在不久的将来存在。
第三个观点,我认为这是非常哲学的。显然,如果你能创建一个任意复杂性的系统,它可以开始做任何你不希望它做的事情。我们还没有达到模型具有高复杂性的阶段,所以对我来说,这还很抽象。
我们将迎来一个代理和 AI 相互作用的世界,这将带来很多复杂性。预期这种复杂性会导致崩溃是不明确的。通常情况下,复杂性会导致无所作为,因为没有自组织和建设某事的意愿。所以我对存在风险并不太担心。显然,这是一个动态的讨论。
如果我们能够创建一个越来越智能的模型,那么也许我们会达到奇点水平。然而,完全没有证据表明我们正在朝着这个方向取得进展,所以我认为这是一个非常开放的讨论,我们应该进行。就我个人而言,我没有看到科学证据。作为一名科学家,我只相信我能看到的东西。
Elad Gil: 
当然了,然后我想你提到了代理,我认为这是目前活动很多的一个领域。似乎与代理相关的一些事情仍然有一段时间才会实现。换句话说,这是一个具有巨大潜力的领域,但仍然处于早期阶段。有没有任何重大的技术创新或你们正在研究的东西,你认为将真正有助于加速朝着更广泛地基于代理的世界发展的方向?
Arthur Mensch:
我认为使模型变小绝对是使代理工作的一种方式,因为代理很快就会被困住,如果你在 GPT-4 上运行一个代理,你很快就会用光资金,如果你将计算成本减少 100 倍,你就可以开始构建更有趣的东西。
关于代理,我们观察到的问题与崩溃有关。他们对崩溃不太感兴趣。他们开始重复自己,陷入循环。所以肯定还有一些研究要做。有一些研究要做,使模型更具有推理能力,使它们能够根据任务的难度来调整计算量。这可以通过代理来解决。所以这绝对是我们正在探索的一个研究方向。
Elad Gil:
回到 Mistral,你们谈到了一点关于你们正在构建的围绕你们培训的模型的平台。你能告诉我们更多关于这方面的信息以及它未来的发展方向吗?
Arthur Mensch: 
我们知道,托管模型系统并不容易。我们知道,在推理方面还有很多工作要做,以使服务变得高效。在训练方面也有很多工作要做,因为你需要设计内存高效的体系结构。例如,这就是我们开始7号的原因,因为它具有引擎关注机制,使其更加内存高效。
所以这是一些可以在训练方面做的工作。但为了获得一个好的模型的所有好处,你需要在推理路径上进行工作,使其尽可能高效,构建一个非常高效的平台,所以你需要有一个好的平台,有良好的代码,有高效的代码,你可以向客户提供的另一种东西是,你可以跨客户进行时间共享,当你想要对一个模型进行试验时,如果你想要使其完全安全,你应该在云提供商的实例上启动它,但如果你只是想玩玩,你可以访问一个 API,这会更便宜,可以为数百个客户提供服务,所以我认为有很大的需求来进行实验和 API,这是我们开始建设的东西,以及我们面向其他企业客户的自托管平台。
Sarah Guo: 
你的团队位于法国。你之前曾说过,你认为有一个重要的法国和欧洲的 AI 公司,可以为全球提供服务的机会。在 Mistral 取得早期成功之前,我不知道这是否是一种主流观点。你能谈谈为什么你认为会有这种机会吗?
Arthur Mensch: 
我认为欧洲在这一领域有一些非常有利的因素,其中之一就是人才。事实上,法国、英国、波兰在培养数学家方面非常出色,而数学家在制造 AI 方面非常出色。
这意味着在 AI 领域有很多法国人、英国人和波兰人,而其中许多人希望留在欧洲,因为他们的家人在那里,食物更好,有许多其他的优势,不一一列举了。
显然,我们看到了伦敦的 AI 生态系统的崛起,我认为这在很大程度上要归功于 DeepMind,然后在巴黎也要归功于 DeepMind 和 Meta,他们在那里建了一个实验室,并且有许多企业家开始回来。
今天我们在巴黎有数百家初创公司,这当然不及硅谷的水平,但我们开始有了一个生态系统,有投资者,也有运营商在投资。所以同样的正向反馈,使旧金山和旧金山湾区取得成功的方式,正在法国开始运转,我很高兴我们能参与其中。
Reference:
https://www.youtube.com/watch?v=EMOFRDOMIiU
联名专栏 
今日资讯
创业手册 
超级个体
奇绩创坛主题活动
探索AI大模型领域的创新创业机会
在生成式 AI 的浪潮推动下,技术研究与应用创新正飞速演进。面对“大模型浪潮”,如何把握其中蕴藏的创新机会呢?针对这一主题,奇绩策划了一系列 AI 大模型领域的创新与创业研讨活动,报名方式如下: