Nano Banana Pro:能排字、懂事实、守品牌

在过去几年里,“AI 画图”从新奇玩具,变成了设计、开发工作流里一个必须严肃对待的基础设施。Google 这一代的组合叫:Nano Banana + Nano Banana Pro ——前者基于 Gemini 2.5 Flash Image,更快更轻;后者即 Gemini 3 Pro Image,主打高保真、强控制、可投产。

图片封面使用 Nano Banana Pro 生成

Nano Banana Pro

从“能画”到“能上生产线”

Nano Banana Pro = Gemini 3 Pro Image,是 Google 最新一代图像生成与编辑模型(Introducing Nano Banana Pro[1])。它在原本 Nano Banana(Gemini 2.5 Flash Image)的基础上,做了几个关键升级:

  • 底层换成 Gemini 3 Pro(全面解读:Gemini 3 & Antigravity IDE),推理能力和真实世界知识更强。
  • 文本渲染从“能写字”升级到“可以排版”:多语言、长文案、图内布局都更稳定。
  • 支持更高分辨率(1K、2K、4K),输出质量对得起“工作室级”。
  • 最多可同时参考  14 张图片,并维持最多 5 个角色/人物的一致性。
  • 可以通过 Search grounding 连到 Google Search,根据提示词再去检索实时数据,生成“有事实落点”的图像(信息图、地图、教程等)。
图片

在产品矩阵中,大致是:

  • Nano Banana(Gemini 2.5 Flash Image):快、便宜、适合脑暴和草图。
  • Nano Banana Pro(Gemini 3 Pro Image):慢一些、贵一些,但质量、可控性、文字和知识维度都明显更强,适合直接产出营销物料、产品图、教学图。

从生态来看,Google 已经把它塞进:

  • Gemini App、搜索(AI Mode)、NotebookLM 等面向用户的入口;
  • Ads、Slides、Vids 等面向内容生产的工具;
  • Gemini API / Google AI Studio / Vertex AI / Firebase AI Logic 等开发入口;
  • 以及新出的 Google Antigravity 开发平台,用于让 agent 直接生成 UI mockup 再落到代码。

用一句话说:它不只是一个“会画图的模型”,而是正在变成 生成式设计的基础设施层

可用性

  • 普通用户/学生:在 Gemini App 里选择 “Create images” 且使用 “Thinking” 模型时逐步全球上线。免费用户有少量额度,用完会默认回退到原版 Nano Banana;AI Plus/Pro/Ultra 订阅用户额度更高。Search 的 AI Mode 中,美国 Pro/Ultra 用户可用;NotebookLM 订阅用户全球可用。
  • 专业人士/广告主:Google Ads 的图像生成功能升级为 Nano Banana Pro;Workspace 用户在 Slides 和 Vids 中从今天起开始陆续上线。
  • 开发者/企业:在 Gemini API、Google AI Studio、Google Antigravity 中开始逐步开放,用于生成 UX 布局与 mockup;企业侧可在 Vertex AI 大规模调用,Gemini Enterprise 也将跟进支持。
  • 创作者/影视:Flow(AI 电影制作工具)向 Google AI Ultra 用户陆续开放,以提供更精确的镜头与画面控制。

能做什么

从玩梗到严肃生产

通用生成 & 编辑:从草图到成片

在最基础层面,Nano Banana Pro 支持:

  • 纯文本生成图片(text-to-image);
  • 以图生图(image-to-image):风格迁移、局部重绘、修复老照片;
  • 多图合成:14 张输入、混合场景、统一光影风格。

2K / 4K 输出让它可以直接挂到电商详情页、线下海报甚至印刷品上,而不是只用来发一张社交媒体图玩玩。

图片

强文本渲染

将“图”变成真正的设计稿

这一代最明显的升级是文本:

  • 支持多语言文字直接生成在图里,且字形、间距、排版更稳定;
  • 可以处理较复杂的版式:长段落、标签、信息图中的标注;
  • 支持翻译图片里的英文文案到其它语言,保持原有排版和风格。

这直接打通了几个经典场景:

  • 品牌与包装:同一包装图,一键出英、韩、法等版本,保持 logo、材质、光影全不变。
  • 教育内容流程图、结构图、练习题,可以让模型先排版再人工核对事实。
  • 产品小样:UI 截图 + 文案 + 真实设备 mockup,可交付程度接近正式设计稿。

示例

“柏林”一词融入了城市街区的建筑设计中,横跨多栋建筑。Prompt: View of a cozy street in Berlin on a bright sunny day, stark shadows. the old houses are oddly shaped like letters that spell out "BERLIN" Colored in Blue, Red, White and black. The houses still look like houses and the resemblance to letters is subtle.

图片

将文字和纹理巧妙地融合在一起,把短语融入到砍柴场景中。Prompt: Create an image showing the phrase "How much wood would a woodchuck chuck if a woodchuck could chuck wood" made out of wood chucked by a woodchuck.

图片

一个饮料广告宣传概念,展示了如何准确地将英文文本翻译成韩文。Prompt: translate all the English text on the three yellow and blue cans into Korean, while keeping everything else the same

图片

一张黑白故事板草图,展示了电影场景的远景镜头、中景镜头、特写镜头和主观镜头。Prompt: Create a storyboard for this scene

图片

书法作品以意义为灵感,展现了运用多种纹理和字体创作富有表现力的文字的能力。Prompt: make 8 minimalistic logos, each is an expressive word, and make letters convey a message or sound visually to express the meaning of this word in a dramatic way. composition: flat vector rendering of all logos in black on a single white background

图片

Search grounding

把信息图变成“可查证”的东西

以前的 AI 信息图,本质上是“瞎编得很漂亮”。现在借助 Search grounding,Nano Banana Pro 可以在生成前后访问实时网页内容,用来:

  • 生成带真实数据的地图、走势图、对比表;
  • 画出结构示意图(例如生物结构、网络拓扑),至少在大框架上接近教材;
  • 根据最新信息更新配方、攻略、流程步骤。

它依然会犯错,但已经从“凭感觉画”升级到“先查一下再画”,这对企业级使用非常关键。

示例

通过 Search Grounding 获取实时天气信息,制作一幅波普艺术风格的信息图。

图片

一张关于常见室内植物“乌龟串”的信息图,包含有关其起源、养护要点和生长模式的信息。Prompt: Create an infographic about this plant focusing on interesting information.

图片

一步一步教你制作小豆蔻茶(豆蔻茶),展示了将食谱和真实世界信息可视化的能力。Prompt: Create an infographic that shows how to make elaichi chai

图片

多图、多角色一致性

让“AI 风格指南”变得可行

企业最怕的一件事是:同一套品牌视觉,AI 每次都给你一个“差不多的兄弟”。而 Nano Banana Pro 在这方面做了几件事:

  • 最多支持 14 张参考图一起输入:logo、色板、角色三视图、产品照统统塞进去。
  • 可以稳定维护最多 5 个角色的长程一致性:脸、发型、衣服、甚至宠物。
  • 通过自然语言做“差分修改”:添一个配件、换个场景,而不是推倒重来。

这让“把品牌 VI 手册当 few-shot prompt 用”变成现实,设计团队可以真正让模型变成“守规则的人”,而不是“每次都出一套新主张的人”。

图片
📌 品牌 VI

它是品牌视觉识别系统(Visual Identity)的缩写,是一套由统一的视觉元素组成的设计规范,用于在社会公众中传递品牌形象、理念和价值观。这套系统包括了 Logo、标准字体、标准色、辅助图形等核心内容。

品牌 VI 的具体组成部分:

  • 基础系统:这是 VI 的核心,包括:
    • Logo/标识:品牌最核心的视觉符号。
    • 标准字体:用于品牌传播的标准印刷字体。
    • 标准色:品牌专用的颜色组合。
    • 辅助图形/图案:用于辅助和丰富品牌视觉呈现的图形元素。
  • 应用系统:将基础元素应用到实际场景,例如:
    • 办公用品(信纸、名片等)。
    • 广告宣传物料。
    • 网站和数字媒体。
    • 包装和产品。
    • 导视系统(如企业内部和外部的标识和指示牌)。

品牌 VI 的作用:

  • 统一品牌形象:通过一套标准化的视觉符号,让品牌在各种场合下都能保持一致的外观,从而建立统一的形象。
  • 增强品牌识别度:通过视觉符号的反复出现,使消费者能快速识别并记住品牌,建立品牌辨识度和知名度。
  • 传递品牌价值:VI 设计并非孤立的符号操作,而是将品牌的经营理念和核心价值观通过视觉化表现出来。
  • 提升企业信誉:一个设计科学、执行到位的视觉识别系统,能够更便捷、高效地塑造品牌形象,赢得消费者的信任。

示例

在复杂的构图中,保持多达 14 个输入(包括多个字符)的一致性。Prompt: A medium shot of the 14 fluffy characters sitting squeezed together side-by-side on a worn beige fabric sofa and on the floor. They are all facing forwards, watching a vintage, wooden-boxed television set placed on a low wooden table in front of the sofa. The room is dimly lit, with warm light from a window on the left and the glow from the TV illuminating the creatures' faces and fluffy textures. The background is a cozy, slightly cluttered living room with a braided rug, a bookshelf with old books, and rustic kitchen elements in the background. The overall atmosphere is warm, cozy, and amused.

图片

通过组合多种元素来打造生活场景。Prompt: Combine these images into one appropriately arranged cinematic image in 16:9 format and change the dress on the mannequin to the dress in the image

图片

通过组合多个输入元素来创建超现实的景观。Prompt: Combine these images into one appropriately arranged cinematic image in 16:9 format

图片

一张以沙漠景观为背景的高级时装大片,保持了 6 张输入照片中人物的一致性和相似性。Prompt: Put these five people and this dog into a single image, they should fit into a stunning award-winning shot in the style if [sic] a fashion editorial. The identity of all five people and their attire and the dog must stay consistent throughout but they can and should be seen from different angles and distances in [sic] as is most natural and suitable to the scene. Make the colour and lighting look natural on them all, they look like they naturally fit into this fashion show.

图片

通过调整宽高比,改变图像在不同平台上的外观和感觉。Prompt: change aspect ratio to 1:1 by reducing background. The character, remains exactly locked in its current position

图片

通过灯光和对焦控制,将场景从白天变为夜晚。Prompt: Turn this scene into nighttime

图片

利用灯光控制来模糊或照亮图像的某个部分,以达到特定的戏剧效果。Prompt: Generate an image with an intense chiaroscuro effect. The man should retain his original features and expression. Introduce harsh, directional light, appearing to come from above and slightly to the left, casting deep, defined shadows across the face. Only slivers of light illuminating his eyes and cheekbones, the rest of the face is in deep shadow.

图片

通过调整景深或焦点(例如,聚焦于花朵)来突出构图的细节。Prompt: Focus on the flowers

图片

局限性

它擅长,但还没到“闭眼用”的程度

官方也写得很直接:你必须对输出负责,尤其是文字与事实。几个需要特别警惕的点:

  • 细节与小字:小尺寸人脸、极细的小字、复杂纹理,仍然会翻车;拼写偶尔出错,长段落更要仔细看。
  • 事实与数据:尽管接入了 Search,模型仍然会误解你的输入语义、把多条信息拼错拼歪、或者把过时信息当成“当前事实”。信息图、统计图、时间线、流程图,都需要人工校对。
  • 翻译与本地化:多语言支持已经够用,但在语法细节、文化语感(比如敬语、俚语)、极其精确的法律/金融术语上仍然不可靠。
  • 复杂编辑、多图融合:大幅度改光照(白天变夜景)、极端蒙版编辑、不同光源环境的多图合成,仍然会生成不自然的伪影或“贴图感”。
  • 角色一致性:比上一代可靠很多,但在多轮迭代、多场景跨越时,角色仍然可能“微整形”或者服饰细节飘忽。

实际使用时,大致可以当作:“在生产链条里负责 70–80% 的视觉生成工作,但最后 20–30% 的审核与微调,仍然需要人”。

安全 & 来源

用 SynthID[2] 做了层“隐形水印”

Google 给这家族所有图像模型都加了一道强制的“内容来源标记”:

  • SynthID:不可见的数字水印,嵌入在每一张由 Gemini / Nano Banana 系列生成或编辑的图像中;
  • 针对媒体、机构用户提供 SynthID Detector 门户,可以检测上传内容中哪些部分带有水印;
  • 在一些消费级入口,还会叠加一层可见水印(Gemini sparkle),专业订阅和开发工具中则可关闭可见标记,只保留数字水印。

这对设计和开发分别意味着:

  • 设计师可以在需求中明确要求 “AI 生成图必须保留可验明来源的水印”,避免后期版权与合规风险。
  • 开发者可以在系统层面标记、过滤、审计哪些资产是 AI 生成,用于风控与内容管线管理。
📌 SynthID 简介
图片

SynthID 是给 AI 生成内容打“隐形标记”的技术,我们可以从以下几个方面快速理解。

是什么

生成式 AI 让每个人都能更高效、更有创造力,但它也带来一个现实问题:你很难凭肉眼区分一段内容是 AI 生成的,还是人类独立创作的。 SynthID 是 Google 推出的数字水印工具,专门为 AI 生成内容设计。它的目的不是限制创作,而是让用户能够识别“这段内容是否由 AI 生成/改写过”,从而建立可追溯性、透明度和信任。

如何工作

SynthID 会把数字水印直接嵌入到 AI 生成的媒体里,覆盖图像、音频、文本和视频。这些水印对人类不可见/不可感知,但可以被 SynthID 的检测技术识别。它们被默认部署在 Google 的消费级生成式 AI 产品中(例如 Gemini 系列、Imagen、Veo、Lyria 等)。

多模态检测

AI 生成图像/视频

SynthID 会在 AI 生成的图像/视频片段中加入不可见水印信号。它不会改变画面质量,而且从内容生成的那一刻起就写入。重点是它“耐折腾”:即使后期被裁切、加滤镜、改帧率、或经过有损压缩,这个水印仍有较高概率存活并可被检测出来。

补充:Google 最近还把 SynthID 扩展到 Google Photos 的 Magic Editor[3] 等编辑功能:只要发生了生成式修改,图像就会带水印,以便外部识别“这张图被 AI 动过”。

AI 生成音频

SynthID 会把水印嵌在 Lyria(AI 音乐生成模型)或 NotebookLM 的播客生成等产品输出的音频里。它对人耳不可听,也较难被常见后期处理破坏,比如加噪声、MP3 压缩、或改变播放速度。

AI 生成文本

SynthID Text 的思路更“语言模型化”:大模型生成文本时,是按 token(词/子词)一步步采样的;每一步模型都会给“下一词的可能性”打概率分。例如句子 “我最喜欢的热带水果是芒果和……” 后面,“香蕉”被选中的概率会远高于“飞机”。

SynthID 会在不改变读者感受的前提下,对这些概率分布做极小、不可察觉的扰动,让生成结果呈现出特定的统计指纹,从而形成可检测的文本水印。它对人眼不可见,也不会明显影响文本质量。

补充:Google 2025 年已把 SynthID Text[4] 开源,允许开发者在自家 LLM 输出中嵌入同类指纹水印,并提供论文级描述。

SynthID Detector:公开验证入口

SynthID Detector 是一个检测门户(需填写表单申请 SynthID Detector Waitlist[5]):你只要上传图片、视频、音频文件或一段文本,系统就会扫描其中是否存在 SynthID 水印。如果检测到水印,它还会标出“最可能被水印覆盖的区域/片段”。目前该工具已向媒体和早期测试者开放,并逐步扩大到公众。

图片

此外,Gemini App 也在 2025 年 11 月上线了“对话式验证”:用户把图丢进 Gemini 里问一句“这是不是 Google AI 生成的?”,Gemini 会用 SynthID 做检查并返回结果;预计后续会扩展到音频和视频。

评价:重要,但不是万能

SynthID 是目前少数跨模态、深度集成到模型侧的水印方案之一,优势是“生成即写入、难以肉眼去除、能跨常见后期存活”。但它也有边界:

  • 它主要证明“是否由 Google 的 AI 生成/改写”,不是全行业通用的万能 AI 检测器;
  • 极端二次加工或某些细微编辑,可能让水印变弱或检测不到;
  • 业界更普遍的方向是把 SynthID 这类模型侧水印与 C2PA[6] 等元数据凭证标准组合使用,形成端到端的来源链路。

影响

  • 对设计师:SynthID 相当于在生成式资产里内置“来源标签”。当 AI 图进入品牌/营销/教育等高风险场景时,你能在规范里要求保留可验证水印,避免后期版权、舆情或合规争议。
  • 对开发者:它是内容管线的“可追溯元件”。你能在系统里记录/审计哪些素材来自 AI 生成、哪些被 AI 编辑过,再结合审核流、投放流做合规闭环。
  • 对生态:它把“AI 内容透明度”从口号变成工程问题:水印嵌入 → 检测 → 平台标注 → 公众理解。虽然还远没到终局,但已经是关键一步。

Prompt 技巧

从“说一说”到“写规格书”

如果只用一句“帮我画一只可爱的猫”,你用的是这个模型 10% 的潜力。结合官方的一些提示技巧(7 tips to get the most out of Nano Banana Pro[7]),可以把有效 prompt 理解为一份迷你“视觉规格书”。

先讲清五个基本维度

可以用一个固定思路来写:主体(谁) + 行为(干什么) + 场景(在哪) + 风格(长什么样) + 构图(怎么拍)

  • 清楚的主体 + 行为 + 场景:谁、在干什么、在哪儿;
  • 明确的风格与媒介:是 3D 渲染、水彩、摄影级写实,还是 90 年代产品摄影;
  • 带有摄影语言的构图描述:远景/近景、机位高度、纵横比;
  • 具体的文字与版式要求:标题内容、所用语言、位置、大致字重与字体氛围;
  • 如果有品牌要求,则补充色板、logo 摆放规则、禁用元素。

例如文字版的 storyboard + 摄影指令:「在黄昏的东京街头,一位穿风衣的中年上班族,手拿便利店咖啡,站在斑马线边等红灯。电影级写实风格,35mm 焦段,中景,略微低机位,背景有霓虹招牌虚化。」

把“设计需求”也写进去

对设计场景,有几个维度非常重要:

  • 版式与比例:写明 “16:9 海报”、“9:16 竖版短视频封面”、“1:1 社媒头像”。
  • 文字规范:明确哪些字必须出现、在哪个区域、什么字体氛围:「标题 ‘URBAN EXPLORER’ 置于画面上方中央,无衬线大写,留出下方空间放产品图。」
  • 品牌限制
    • 色板(例如只能用某个十六进制色系,如:#FBAC48);
    • logo 摆放位置(左上/右下、不能遮挡主体);
    • 禁止元素(比如不能出现某品牌竞争对手形状)。

这一层本质上是把“品牌 VI 手册”翻译成 prompt。

用“参考图 + 角色分工”做 few-shot 提示

多图输入时,最重要的是告诉模型——每张图是什么角色,如:

  • A 图:角色造型与表情
  • B 图:整体画风(例如某位插画师风格)
  • C 图:背景场景
  • D 图:光照与色调参考

提示中直接写:「A 图用于人物造型,B 图用于笔触和色彩风格,C 图作为背景环境模板,D 图参考光照和对比度。」

这比一句“参考这些图片”要稳定得多。

用“编辑指令”而不是“重新生成”

当你要 改图 而不是重新画一张:

  • 写清“保留什么,不动”;
  • 写清“改动什么、改到什么程度”。

例如:「保持人物姿势、服装和表情完全不变,只把场景从白天改为雨夜街景,光线来自路灯和霓虹,整体对比度偏高。」

对于 UI / 产品图改版,这种“差分编辑”尤为重要:你是在用它做 patch,不是让它“重新设计”。

对设计的影响

从“出图工具”到“视觉合伙人”

对设计师来说,Nano Banana Pro 带来的变化有几层:

  • 工作流前移:以前先画低保真草图、再出高保真,现在变成:先通过模型快速生成几十个方向的视觉假设、再挑几条路线进入精修。它更像是一个永不疲倦的助理,负责出“第一轮视觉差分”。
  • 品牌一致性可控化:用多图 few-shot + 严格 prompt,把品牌 VI 手册“喂给模型”。在 Adobe、Figma、Canva 这些平台里直接调用 Nano Banana Pro,可以在熟悉的设计环境里做 AI 辅助,而不是跑去另一个网站再导入导出。
  • 本地化不再是体力活:包装、海报、App 截图的多语言版本可以先让模型帮忙出“合格草稿”,设计师只负责文化语境和细节打磨。
  • 创意边界扩张:像 Photoroom、Klarna、Shopify、Wayfair 这些公司反馈的,其实都是同一件事:原本要几天才能做完的一轮视觉实验,现在几个 prompt + 几十分钟就能跑完一轮 AB 测试。

Prompt: Famous childrens film in public domain in provided style and same color scheme. 10 frames one by one. no text. not a single comic strip, instead generate 10 frame one after the other, each it's own prompt and server call. Each landscape 16:9

图片

对开发的影响

图像生成变成“一个 API 调用”

从开发者视角,Nano Banana Pro 把图像生成变成了一个标准云服务:

  • 通过 Gemini API / Vertex AI / Firebase AI Logic 调用,模型 ID 就是 gemini-3-pro-image-preview 一类。
  • 支持从基本 text-to-image 到多轮 refine(反复指令微调)、图像编辑(in/out-painting、局部修补)、搜索校准生成(带实时数据的信息图)等。

几类典型集成方式:

  • 产品内置“生成式设计器”:在 SaaS 里提供 banner 生成、邮件配图、活动 KV 自动产出,业务只需要设计 prompt 模板 + UI,底层直接丢给 Gemini API。
  • 生成式 UI / 原型工具:在像 Antigravity 这样的开发平台中,agent 可以根据 PRD 自动画 UI mockup 再落到代码,你可以在自己的 IDE 或内部工具中复刻类似体验。
  • 数据驱动的图像管线:把结构化数据(商品信息、教学大纲、运营活动配置)喂给模型,让它产出一整套视觉资产。再配合 SynthID 和内部审阅流,形成“机器出稿 → 人审稿 → 机器批量出变体”的流水线。
  • 速度/成本/质量的动态切换
    • 草稿阶段用 2.5 Flash Image(Nano Banana):便宜、低延迟;
    • 决定要上线的版本再切 Gemini 3 Pro Image(Nano Banana Pro)出高保真终稿。

结语

它把“生成式设计”往前推了一大步,但没有替代人

Nano Banana Pro 把 AI 画图从“好玩”推到“可生产”的门槛上。一端连着 Search 和企业数据,一端连着 Figma、Adobe、Canva 这类设计工具,再通过 Gemini API 和 Vertex AI 变成开发者手边的标准能力。它会极大压缩视觉生产的时间成本,也会把设计师和工程师往“系统设计者”而不是“搬砖执行者”的角色推。但事实准确性、文化本地化、品牌判断,这些高层语义仍然离不开人。

换句话说:它很适合作为生成式设计流水线里的“主力机器”,但真正负责任的“总工”,还得是你。

References

[1]

Introducing Nano Banana Pro:https://blog.google/technology/ai/nano-banana-pro

[2]

SynthID:https://deepmind.google/models/synthid

[3]

Magic Editor:https://blog.google/feed/synthid-reimagine-magic-editor

[4]

SynthID Text:https://github.com/google-deepmind/synthid-text

[5]

SynthID Detector Waitlist:https://docs.google.com/forms/d/17AiEqHpgnp7GwsIfQNFLCB-5nSr7YxnLI_4jmm7kBGU/viewform

[6]

C2PA:https://c2pa.org

[7]

7 tips to get the most out of Nano Banana Pro:https://blog.google/products/gemini/prompting-tips-nano-banana-pro