好你个Gemini自测自夸:香蕉2比pro,好在哪里?

图片

我问gemini:

我看你的制作图片模型升级成了nanobanana 2,

相比nanobanana pro,有哪些地方做了升级?

下面是它的回答:

Nano Banana 2 相比于之前的 Nano Banana Pro,在底层架构和多模态理解能力上都有显著的跨越式升级。以下是几个核心的改进方向:

图片

一. 多模态逻辑推理与“理解”能力

Nano Banana Pro 主要侧重于高质量的图像生成和指令遵循,

而 Nano Banana 2 引入了更强大的逻辑推理。

  1. 跨领域任务:它不仅能生成图片,还能在图片中准确呈现复杂的数学推演(如微积分过程)、物理公式或逻辑严密的流程图

  1. 复杂 UI 设计:它生成软件界面(UI)的能力大幅提升,生成的界面不仅美观,而且布局逻辑符合真实产品交互

然后我让Gemini基于这个升级点,给我生成一个适合测试的提示词,

让我去两版香蕉里,去测试对比生图效果。

后面2-5点,也都是同样的操作。

提示词1:

一款现代化、融合俏皮感与理性逻辑的手机App界面设计(UI),主色调为充满希望的紫色。顶部界面标题清晰显示中文:“今日穿搭:活力与希望”。下方并排三张推荐卡片,每张卡片都有精准的中文标题和配图:第一张卡片标有“卡片1:理性之选 - 商务休闲”并配有穿着西装外套的女性图片;第二张卡片标有“卡片2:俏皮风尚 - 周末度假”并配有穿着连衣裙的女性图片;第三张卡片标有“卡片3:远眺 - 充满希望”并配有穿着针织衫的女性图片。所有中文字符极其清晰,绝无乱码。

Nano Banana 2

图片

Nano Banana pro

(我是从lovart里生成的,以下所有pro的图片都同样)

图片

二. 文字渲染的“零破绽”突破

文字渲染一直是 AI 生图的难点。

1、高精度文本:NB2几乎解决了文字扭曲、乱码的问题。

无论是海报上的艺术字、手写体,还是复杂的网页 UI 中的小字,都能做到清晰、准确且无拼写错误。

2、语境融合:文字与图像环境的融合度(如光影、材质)更加自然

提示词2:

一张电影级别的赛博朋克风格街景摄影,氛围温暖且充满希望。视觉中心是一个发光的霓虹灯牌,极其清晰、准确地写着中文字符“AI高光时刻”,下方有一行较小的英文发光字“FEIFEI”。背景街道深处有四个较小的霓虹灯招牌,分别精准地写着中文:“即时做梦”、“机器人吧”、“全民豆包”、“千问奶茶”。霓虹灯光是冷蓝色和温暖紫色的交织。绝无拼写错误或乱码。

Nano Banana 2

图片

Nano Banana pro

图片

三. 人像一致性与极高真实感

  1. 人物一致性(Character Consistency): 在连续生成同一人物的图片时,NB2 对五官特征、肤色、比例的记忆更精准,非常适合进行长篇叙事或短视频脚本的素材制作

  1. 皮肤纹理:在人像生成上,皮肤的毛孔、汗毛、光泽感达到了肉眼难以辨别的 4K 级别,减少了“塑料感”或“AI 味”。

提示词3:

一张极其逼真的三拼人像实拍摄影图(RAW photo, DSLR)。画面并排展示同一个真实的年轻亚洲女性的三张半身照。她留着齐肩短发,穿着一件有设计感的日常紫色休闲夹克。

左图:她正脸看向镜头,带着俏皮真实的微笑;中图:她90度侧脸,表情理性沉思;右图:她三分之四侧脸,眼神充满希望地看向画面外的远方。要求极高真实度的单反摄影质感,清晰可见真实的皮肤纹理、自然毛孔和真实光影。

三张照片必须是同一个人的真实面部骨骼和五官,人物特征保持绝对一致。绝不允许任何插画、CG建模或绘画风格。

Nano Banana 2

图片

Nano Banana pro

图片

四. 物理常识与细节遵循

  1. 物理规律:在处理如“倒满红酒的杯子”、“指向特定时间的时钟”、“折射与反射”等物理细节时,NB2 的表现更加符合常识

  1. 指令覆盖:它能同时处理更多数量级的描述词,即使是信息量极大的复杂场景,也能捕捉到每一个微小的细节要求。

提示词4:

极具真实感的纪实摄影风格(Documentary photography style, grain, raw texture)。画面主体是一个放在陈旧、有斑驳纹理的木桌上的透明玻璃水杯,里面装满了气泡水。强烈的自然阳光(单反实拍效果,高清晰度,非CG感)穿过玻璃杯,在木桌上投射出精密、复杂的焦散(Caustics)光斑和闪烁的太阳光点。

最关键的细节:在玻璃杯的曲面上,必须清晰、精密地反射出窗外的一个蓬松白云和一个紫色的热气球。细节要求:玻璃杯表面的水珠、木纹瑕疵清晰可见。绝无动漫感。

Nano Banana 2

图片

Nano Banana pro

图片

五. 生成效率与分辨率

  1. 4K 原生生成:NB2 支持更快速地生成 4K 高清图像,减少了后期放大的需求。

  1. 响应速度:尽管模型变得更复杂,但通过算法优化,单次生成的响应速度相比 Pro 版有明显提升。

提示词5:

一张极具视觉冲击力的极致微距摄影(Extreme macro photography)。特写一只真实人类的眼睛,画面充满整个视野。呈现 8K 级别的单反微距细节:极其逼真的皮肤纹理、细微的眼部细纹、毛孔,以及每一根睫毛的生长走向。瞳孔是深邃的琥珀色,带有复杂的虹膜纹理。

在瞳孔正中央,极其清晰、毫无违和感地微距反射出一个超现实的微缩海洋场景:波涛汹涌的海面,远处的悬崖灯塔,夕阳的余晖,以及一瓶漂浮在海面上的“橘子汽水”(带有清晰的英文标签“ORANGE SODA”)。在瞳孔边缘的下方,还巧妙地散落着微缩的海螺、复古钥匙和硬币细节。极度逼真,细节拉满,如同真实世界的奇观。

Nano Banana 2

图片

Nano Banana pro

图片

Gemini最后总结说

如果说 Nano Banana Pro 是一个“听话且画技精湛的画师”,

那么 Nano Banana 2 则更像是一个“既懂画画又懂逻辑、能处理极致细节的创意总监”。


你认同么?

我不想做任何评价。

看完了两版对比,和Gemini对自己5点升级的总结,你感觉这版香蕉2有惊喜到你么?