谷歌Imagen 3生图太强了！还悄悄发布了一个小产品Whisk

猜想笔记

2024-12-17 19:06发布于北京

去年说OpenAI狙击谷歌，今年貌似是谷歌狙击OpenAI了。

谷歌昨天悄悄发布了最新版的视频生成模型Veo 2。谷歌说Veo 2的视频效果很好，但目前没有正式上线，所以保持谨慎乐观。毕竟，Sora的买家秀与买家秀差距也挺大的。。

现在可以加入候补。候补链接：https://labs.google/fx/tools/video-fx

重点关注一下图像生成模型Imagen 3，以及一个小产品Whisk。

Imagen 3是谷歌最先进的图像生成模型，是一种潜在扩散模型（latent diffusion model），可以根据文本提示生成高质量图像。在默认配置下，Imagen 3 生成分辨率为 1024 × 1024 的图像，并且可以跟随 2×、4× 或8× 上采样。

在之前版本的基础上，Imagen 3可以生成更明亮、构图更好的图像。它现在可以更准确地渲染更多不同的艺术风格——从照片写实主义到印象派，从抽象到动漫。此次升级还可以更忠实地遵循提示，并渲染更丰富的细节和纹理。

试用了一下发现，Imagen 3似乎不支持中文提示词，所以用英文输入。

提示词：“guangzhou”：

无论是图像的清晰度，还是地标建筑小蛮腰，都非常地惊艳啊！

提示词：Mystical creature in a fantasy realm（奇幻世界中的神秘生物）

提示词：

In a post-apocalyptic wasteland, a robot is walking, with a butterfly perched on its shoulder, at dusk, as the sun is just above the horizon.（末日废土中一个机器人在行走，一只蝴蝶落在它的肩膀上，黄昏，夕阳正好在地平线上方）

A minimap diorama of a cafe adorned with indoor plants. Wooden beams crisscross above, and a cold brew station stands out with tiny bottles and glasses.（咖啡馆的迷你地图立体模型，装饰有室内植物。木梁在上面交叉，冷饮站摆放着小瓶子和玻璃杯，十分显眼。这是DALL-3给出的案例）

效果非常地不错！！

关键是，Imagen 3它不收费啊！地址：https://labs.google/fx/zh/tools/image-fx

与Imagen 3一起发布的还有另外一款小产品Whisk。

Whisk是 Google 实验室的最新实验。Whisk 允许输入主题图片、场景图片和风格图片。然后，可以将它们混合起来，创造出专属于自己的独一无二的东西，从数字毛绒玩具到珐琅别针或贴纸。

比如，当我输入我的爱猫，生成的风格如下：

打开工具后后，还可以继续添加动作，比如让角色打鼓：

非常有趣的功能。

在底层，Whisk 将谷歌最新的 Imagen 3 模型与 Gemini 的视觉理解和描述功能相结合。Gemini 模型会自动为图像编写详细的说明，然后将这些说明输入到 Imagen 3 中。此过程能够以有趣、新颖的方式轻松重新组合主题、场景和风格。

Imagen 3与Whisk都是谷歌实验室（Google Labs）出品的AI产品，这是是 Google 最新 AI 实验和技术的所在地。谷歌此举等于是把技术团队（Google DeepMind）与产品团队（Google Labs）分成了两个团队。

值得一题的是，国内某大厂近期也将其大模型团队下的产品团队划归到了另一支部门里。

谷歌实验室的产品还包括Project Mariner、NotebookLM、Jules、Project Astra、VideoFX、Gemini in Colab等等。

查看原图 723K