Mistral 发布开源多模态模型,全面对标 ChatGPT

全文2094字,阅读约需6分钟,帮我划重点

划重点

01Mistral AI发布了最新开源多模态模型Pixtral Large,具有强大的图像理解能力,同时保持纯文本理解能力。

02该模型在MathVista、DocVQA、VQAv2等测试中达到SORA,具有竞争性能力。

03除此之外,Mistral AI的AI聊天助手le Chat新增了网页搜索、画布、文件理解和图像生成等功能。

04Le Chat与当今市场上领先的聊天和搜索助手相比,具有更强大的推理能力和更快的响应速度。

以上内容由腾讯混元大模型生成,仅供参考

图片

今日凌晨,Mistral AI 发布了最新开源多模态模型 Pixtral Large,该模型基于 Mistral Large 2 构建,展示出强大的图像理解能力,能够理解文档、图表和自然图像,同时还保持了 Mistral Large 2 优秀的纯文本理解能力

据介绍,该模型具有强大的多模态性能,在 MathVista、DocVQA、VQAv2 上达到了 SORA,能够在不影响文本性能的前提下对 Mistral Large 2 进行扩展并具有 123B 多模态解码器、1B 参数视觉编码器以及 128K 的上下文窗口。

同时,他们的 AI 聊天助手 le Chat 也新增了网页搜索、画布、文件理解和图像生成等功能

最新基础模型 Pixtral Large

Mistral AI 通过一套通用测试工具,在一组标准多模态基准上将 Pixtral Large 与前沿模型进行比较。他们使用 MathVista 评估模型在视觉数据的复杂数学推理方面的性能,在这项测试中,Pixtral Large 实现了 69.4% 的准确率,优于所有其他模型。为了评估复杂图表和文档的推理能力,他们使用 ChartQA 和 DocVQA 评估性能,结果显示 Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

图片

图|在使用 MathVista、ChartQA 和 DocVQA 评估性能时,Pixtral Large 均优于其他模型。

最后,Pixtral Large 在 MM-MT-Bench 上展示了具有竞争性的能力,表现优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。MM-MT-Bench 是一种开源的、基于评判的评估,旨在反映多模态 LLM 的实际用例。

图片

图|Pixtral Large 在 MM-MT-Bench 上展示了竞争性能力。

以下是 Pixtral Large 的一些能力展示:

多语言 OCR 和推理

图片

提示(Prompt):

我买了咖啡和香肠。我需要付多少钱?加上 18% 的小费。

回复:

要计算出你需支付的总金额(包含 18% 的小费),请按以下步骤操作:

1.计算咖啡和香肠的费用:

  • 2 杯拿铁玛奇朵:2 × 4.50 瑞士法郎 = 9.00 瑞士法郎

  • 1 份炸猪排:22.00 瑞士法郎

  • 咖啡和香肠的总费用:9.00 瑞士法郎 + 22.00 瑞士法郎 = 31.00 瑞士法郎

2.计算 18% 的小费:

  • 小费:31.00 瑞士法郎 × 0.18 = 5.58 瑞士法郎

3.将小费加到总费用上:

  • 应付总金额:31.00 瑞士法郎 + 5.58 瑞士法郎 = 36.58 瑞士法郎

所以,你总共需支付 36.58 瑞士法郎。

图表理解

图片

提示:

dark dragon 项目何时开始出现问题?

回复:

“dark-dragon-50” 模型的训练损失在大约 10,000 步时开始呈现出明显的不稳定状态。此时损失值出现了显著的峰值,并且这种不稳定状态持续,在大约 20,000 步时又出现了一个较大的峰值。这些峰值表明“dark-dragon-50” 模型的训练过程从大约 10,000 步时开始遇到问题。

图像理解

图片

提示:

哪些公司使用由 Mistral AI 制作的模型?

回复:

如图所示,使用由 Mistral AI 制作的模型的公司有:

1.法国巴黎银行(BNP Paribas)

2.Brave

3.Cloudflare

4.CMA CGM

5.Front

进一步对标 ChatGPT

Mistral AI 已开始着力于人工智能交互界面的投入,首先他们对 le Chat 进行了一些重大更新。Le Chat 是 Mistral AI 推出的免费生成式人工智能办公助手。

以下是 le Chat(测试版)新能力的简要概述:

  1. 带引文的网页搜索

  2. 用于构思、在线编辑和导出的 Canvas

  3. SOTA 文档和图像理解技术,由 Pixtral Large 提供支持

  4. 由 Black Forest Labs 的 Flux Pro 提供支持的图像生成功能

  5. 从模型到输出的全集成式服务

  6. 通过推测性编辑实现更快的响应

以下是 le Chat 与当今市场上领先的聊天和搜索助手的比较:

图片

具体而言:

网页搜索

le Chat 的大部分用户来自学生和专业人士,他们将其用于学习、研究和工作。为了更好地促进这些用例,Mistral AI 通过互联网搜索增强了 le Chat 的训练知识。

Canvas 画布

Canvas 是一个新的界面,当用户需要超越对话并进行构思时,它会弹出到用户的 le Chat 窗口中。它使用户能够与 Mistral LLM 合作完成共享输出,从而实现知识工作的 0-1 创作和构思。

Canvas 不再局限于双向对话,借助 LLM 强大的推理能力,可以直接修改、编辑或转换内容。

用户可以使用 Canvas 创建文档、演示文稿、代码、模型……等等。可以就地修改其内容而无需重新生成响应、版本控制草稿并预览设计。Canvas 可以让任何团队发挥无限的创意。

快速准确的文档理解

Le Chat 现在可以处理大型、复杂的 PDF 文档和图像,进行分析和总结。只需将文档附加到聊天栏,即可了解所有内容——图形、表格、图表、文本、公式、方程式……基本上是整个文档。

这些功能是由新的 Pixtral Large 实现的,与实验模型结合使用比之前的视觉模型 Pixtral 12B 强大得多。

图像生成

Mistral AI 与 Black Forest Labs 合作,将后者领先的图像生成模型引入 le Chat。现在,用户可以直接在 le Chat 中生成高质量的图像。

智能体

如果用户会重复使用某些提示内容,或者已经确定了某些希望能实现自动化的创意工作模式,那么用户可以将这些工作流程编写成智能体(agents)。常见的应用场景包括为费用报销进行收据扫描、为冗长的会议纪要生成摘要,以及发票处理等。

这些智能体可以发布并分享给团队成员。用户可以反复进行构思,构建功能愈发强大的智能体,以帮助自己更高效地完成工作。