机器之心报道
编辑:蛋酱、陈陈
一觉醒来,Mistral AI 又发力了。
就在今天,Mistral AI 多模态家族迎来了第二位成员:一个名为 Pixtral Large 的超大杯基础模型。
这是一个基于 Mistral Large 2 构建、124B 开放权重的多模态模型,具备顶尖的图像理解能力 —— 能够看懂文档、图表和自然图像,同时保持 Mistral Large 2 领先的纯文本理解能力。
除了发布新模型,Mistral AI 还进一步升级了免费聊天机器人 le Chat,增加图像生成、网络搜索和交互式画布功能,全面对标 ChatGPT。
所有这些功能,统统以免费测试版的形式开放。
Mistral AI 的每一次更新,都会让整个 AI 社区兴奋起来。
有人感叹:「六个月前,开源模型和闭源模型之间的差距非常大。现在,最先进的人工智能正在迅速向任何想要使用它的人开放。」
到底有多强?
接下来,让我们看看发布细节吧。
开源多模态大模型 Pixtral Large
Pixtral Large 可根据 Mistral 研究许可证 (MRL) 用于研究和教育用途,同时根据 Mistral 商业许可证用于商业目的的实验、测试和生产。
Pixtral Large 前身是 2024 年夏季发布的 Mistral Large 2,以及 9 月份发布的首个多模态模型 Pixtral 12-B。关于将多模态模型扩展到 1240 亿参数的出发点,Mistral AI CEO 是这么说的:「我们越来越意识到,要创造最佳的 AI 体验,需要共同设计模型和产品界面。Pixtral 在训练时就考虑到了高影响力的前端应用,是一个很好的例子。」
Pixtral Large 包括一个 1230 亿参数解码器和一个 10 亿参数视觉编码器,使其在文本和视觉数据处理方面均表现出色。
Pixtral Large 上下文窗口为 128K,至少可以处理 30 张高分辨率图像或大约一本 300 页的书,这相当于领先的 OpenAI GPT 系列模型的能力。
在性能方面,该模型在包括 MathVista、DocVQA 和 VQAv2 在内的多种基准上展现出了最先进的性能,非常适合图表解释、文档分析和图像理解等任务。
具体而言,在 MathVista 基准上,Pixtral Large 实现了 69.4% 的准确率,优于所有其他模型。在 ChartQA 和 DocVQA 基准上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。
Pixtral Large 在 MM-MT-Bench 上也展示了强有力的竞争力,优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。
在图像理解方面,Pixtral Large 也表现优异。比如上传一份账单,询问该模型:「我买了咖啡和香肠,外加 18% 的小费。我该付多少钱?」
Pixtral Large 会非常有条理地给出总消费金额,先是计算了咖啡和香肠的费用,2 杯拿铁玛奇朵、 1 份香肠 ,然后计算 18% 的小费 ,最后给出总金额。
Pixtral Large 也能准确理解并分析图表。比如对于下面的训练损失曲线图,问 dark dragon 模型什么时候开始出现问题。
Pixtral Large 分析的也很准确:「在达到 10,000 step 时,训练损失开始出现不稳定…… 随后,这种不稳定性持续存在,并在 20,000step 附近出现了另一个大的峰值……」
在接下来的示例中,上传一张图片,问 Pixtral Large 哪些公司使用 Mistral AI 模型?
Pixtral Large 也能根据图片提供的信息给出准确的结果,回答过程如下。
除了 Pixtral Large,Mistral AI 最先进的文本模型 Mistral Large 也迎来了一次更新。该模型在 API 上以 pixtral-large-latest 的形式提供,在 HuggingFace 上以 Mistral Large 24.11 的形式提供。
Mistral Large 24.11 将首先在 Google Cloud 和 Microsoft Azure 上推出,预计一周内即可使用。
模型和权重下载地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main
试用地址:https://chat.mistral.ai/chat
对标 ChatGPT 大升级
le Chat 已经强得可怕
Pixtral Large 的发布,也让 le Chat 的能力上升到了一个新的高度。
le Chat 现在可以处理大型、复杂的 PDF 文档和图像,比如一篇理论文献的所有内容 —— 图形、表格、图表、文本、公式、方程式。
下面的例子展示了爱因斯坦、波多尔西和罗森于 1935 年撰写的著名量子纠缠论文的信息提取、总结和语义理解。
此外还有两项新能力登陆 le Chat:
首先是实时的网络搜索。这是一项关于生产力的升级,Mistral AI 表示,le Chat 的大部分用户来自学生和专业人士,而这些用户非常看重其在学习、研究和工作中的作用。
下面是一位营销类专业人士使用 le Chat 来评估医疗保健人工智能市场:
然后是新的 Canvas 界面。当用户需要暂时离开对话进行构思时,它会弹出到 le Chat 窗口中,随后用户可以和 Mistral LLM 合作完成共享输出。
从此,我们和聊天机器人的互动不再局限于双向对话。借助 LLM 强大的推理能力,Canvas 可以用来创建文档、演示文稿、代码、模型等,亮点在于「就地修改」内容,无需重新生成回复、版本控制草稿并预览设计。
比如在下方演示中,是一个产品团队为准备推出 Canvas 而创建产品指标仪表板的反应模型的视频。
Mistral AI 与 SD 作者团队成立的 Black Forest Labs 也达成了合作,因此 le Chat 拥有了高质量的图像生成能力。
最后,如果你想马上体验到 Mistral AI 最新放送的搜索、PDF 上传、编码、图像生成等所有功能,请访问:http://chat.mistral.ai/
参考链接:
https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/