Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

至顶科技

2025-03-13 18:09发布于北京

+关注

Google 今天不仅发布了开源 AI 模型 Gemma 3，更引人注目的是推出了具备原生图像生成功能的 Gemini 2.0 Flash。这是一个实验性模型，可通过 Google AI Studio 免费使用，开发者也可以通过 Google 的 Gemini API 调用。

这是美国主要科技公司首次在模型中直接为用户提供多模态图像生成功能。此前的 AI 图像生成工具大多是将扩散模型 (专门处理图像) 与大语言模型 (LLM) 连接使用，需要在两个模型之间进行解释才能生成用户通过文本提示要求的图像。

相比之下，Gemini 2.0 Flash 可以在用户输入文本提示的同一模型中原生生成图像，理论上可以实现更高的准确性和更多的功能 - 早期迹象表明这确实如此。

Gemini 2.0 Flash 于 2024 年 12 月首次亮相，但当时用户无法使用原生图像生成功能。它整合了多模态输入、推理和自然语言理解功能，可以同时生成图像和文本。

新发布的实验版本 gemini-2.0-flash-exp 使开发者能够创建插图、通过对话优化图像，并基于世界知识生成详细的视觉内容。

Gemini 2.0 Flash 如何增强 AI 生成图像

Google 在今天发布的面向开发者的博文中强调了 Gemini 2.0 Flash 原生图像生成的几项关键功能：

o 文本和图像讲故事：开发者可以使用 Gemini 2.0 Flash 生成插图故事，同时保持人物和场景的一致性。该模型还可以响应反馈，允许用户调整故事或更改艺术风格。

o 对话式图像编辑：AI 支持多轮编辑，用户可以通过自然语言提示逐步优化图像。这个功能支持实时协作和创意探索。

o 基于世界知识的图像生成：与其他图像生成模型不同，Gemini 2.0 Flash 利用更广泛的推理能力生成更符合上下文的图像。例如，它可以为菜谱配上与真实食材和烹饪方法相符的详细视觉效果。

o 改进的文本渲染：许多 AI 图像模型在生成图像中的可读文本时都存在困难，经常出现拼写错误或字符扭曲。Google 表示 Gemini 2.0 Flash 在文本渲染方面优于主要竞争对手，特别适合广告、社交媒体帖子和邀请函的制作。

[文章后半部分省略，如有需要可继续提供]

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。