+关注

手机看

微信扫一扫，随时随地看

视觉错觉也能识别？被忽略的 Gemini 1.5 Flash 有哪些神奇表现？｜AI 鲜测

硅星人Pro

2024-05-30 10:01发布于北京

+关注

AI划重点 · 全文约2652字，阅读需8分钟

1.谷歌推出了最新的AI模型Gemini 1.5 Flash，具备强大的多模态处理能力，能同时处理文本、图像、音频和视频。

2.Gemini 1.5 Flash具有高速响应、长上下文窗口和多模态处理等特点，能在多种应用场景中快速、准确地响应。

3.然而，Gemini 1.5 Flash在多模态输出方面仍有不足，如不能直接生成图片和视频，以及在处理音频输入时存在不足。

4.尽管如此，Gemini 1.5 Flash在识别和解释撒切尔效应的图像、通过视频教学指导游戏等方面展现了强大的分析能力和高效的处理速度。

以上内容由腾讯混元大模型生成，仅供参考

作者｜椒盐玉兔

编辑｜椰子

在前段时间的谷歌 I/O 2024大会上，谷歌推出了最新的AI模型——Gemini 1.5 Flash。这款模型不仅轻量高效，还具备强大的多模态处理能力，能够同时处理文本、图像、音频和视频。

Gemini 1.5 Flash 具有以下几个显著特点：

高速响应：优化后的架构使其在处理大量数据时能迅速响应。
长上下文窗口：支持长达两百万标记的上下文处理，使其能够应对复杂的任务，如长视频分析和多章节文档生成。
多模态处理：不仅能处理文本，还能对图像、音频和视频进行深入分析和理解。

接下来，让我们通过具体场景测评来看看 Gemini 1.5 Flash 的实际表现如何。

场景1：科普撒切尔效应

最近无意中看到一个有趣的图像实验，看看 Gemini 1.5 Flash 怎么说。

Gemini 1.5 Flash 不仅识别出了“撒切尔效应”，而且详细说明了效应的机制和历史背景，并给出了具体的观察指导。

但它没有提供实际图像示例，可能不太直观。

（撒切尔效应：这是一个视觉错觉。当图像颠倒时，脸看起来正常，但正过来时，脸会显得怪异。这个效应展示了大脑处理面部信息的方式。）

当我再问它“能否反向输出图像”时，它回答：No！

也就是说 Gemini 1.5 Flash 目前不具备多模态输出能力。

撒切尔效应揭秘时刻：

再用视频版输入分析一下，看它能读出什么内容：

在第二次视频分析的回答中，Gemini 1.5 Flash 依旧能够清晰地识别出撒切尔效应，通过科学原理解释了为何颠倒的脸看起来正常，而正过来后显得奇怪，尤其是眼睛和嘴巴。

撒切尔效应揭秘时刻：

体验网址：https://optical.toys/thatcher-effect/

小结一下，Gemini 1.5 Flash 在没有文字提示的情况下，只是通过图片和视频输入来分析，便能做到回答科学详尽、逻辑清晰，这一点上不得不说做的很不错。

但是回答中没有提供具体的图片示例，这一点对于多模态模型是一个硬伤！

场景2：教我玩游戏！

既然 Gemini 1.5 Flash 视频分析能力比较强，把这个游戏的视频发给它，看它能否带我们成功通关。

游戏地址：https://clicking.toys/flip-grid/neat-nine/3-holes/

我按照它的方式疯狂“点击”一分钟，没啥结果。

然后我再把刚刚玩的过程录制的视频传给它，看看它怎么接招。

按照它教的我玩了两次，但还是失败了（感觉它开始出错了）。我姑且再信它一次，接着再问它说怎么玩。

果不其然，Gemini 1.5 Flash 承认自己的步骤有错误，让我多多尝试。

到这里会发现 Gemini 1.5 Flash 能够通过视频教会我玩这个游戏，它能够处理视频输入，生成详细且准确的指示和解释。

虽然它能提供详尽的回答，但在初次给出错误步骤后未及时修正，需更好地校验信息准确性。但对于一些复杂问题的解答，可能需要进一步简化说明，使其更加易于理解。

场景3：看图讲故事

讲真，Gemini 1.5 Flash 的响应速度极快，它能够快速生成内容和处理多模态输入，很大程度上保证了用户体验的流畅性，这是最直观的一个感受。

让它看图讲故事。它直接根据图片内容在5秒钟之内就生成了一个完整的故事（故事还带有哲理性和反转性），这理解能力也是极强了，而且还是中文故事。

图片来源于网络

故事1：儿童绘本

让它继续写一个，生成的故事风格都不带重样的，现代都市风、未来科技风啥啥都有，关键是效果还不错。

故事2：现代都市风

故事3：未来科技风

我们知道 Gemini 1.5 Flash 的长上下文窗口是其特征之一，允许模型在较长的对话和故事创作中保持连贯性和一致性。那我们再来让它一口气写一万字的故事效果怎么样。

对话图片太长，附上完整对话测试地址：https://poe.com/s/LpECJTyvIQJqlo3FFf8q

例如，让 Gemini 1.5 Flash 生成一个“关于人类探险队发现新星球并与原住民互动的复杂故事”，

它能在10s左右生1万字故事的内容大纲，并分好章节，有每一章的简单介绍，很有条理。
它能在3～5分钟内生成1万字故事每一章的详细内容（手动输入不友好），同时能够有效保持前后文的一致性，确保故事情节流畅，细节丰富。

这些特性对于需要处理大量背景信息的任务，如技术文档编写、深入对话、故事创作灵感激发都非常有用。

但美中不足的是，它不能自动连续生成输出所有的5章故事，需要手动速入指令才会进行下一步，这一点跟 ChatGPT-4o 比起来在用户体验上还是差点意思。

这么来看，Gemini 1.5 Flash 还是有点东西的！根据图像生成相关的故事情节，比如一口气连续生成故事情节连贯的故事，而且生成文本内容质量相对较高，对于中文的理解也很不错。看来是有真本事的！

场景4：这个视频讲了什么？

我们上传一个短视频，视频详细演示了在 Midjourney --cw 这一参数的用法及其对图像效果的影响。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

视频源于网络

我们看看 Gemini 1.5 Flash 怎么说。

Gemini 1.5 Flash 不仅可以识别出视频的主要是讲啥的，而且分析出视频中上下左右每个图片的具体内容，比如通过旋转参数的调整，可以看到图像中卡通老人的姿态发生变化，分析效果直观明了。

但同样的问题问 ChatGPT，视频针对于视频的分析并不能直接分析，反而回答提取一帧一帧的画面进行分析，我们还是期待一下 GPT-4o 的更新吧。

问到背景音乐是什么，基本歇菜了，只能是

场景5：这本书值不值得买？

把《这就是 ChatGPT》的实拍图丢给 Gemini 1.5 Flash，问它好不好，值不值得读，看它怎么推荐。

它回答的速度倒是挺快，识别出了书籍作者，但说原作者是 sam altman，这就开始妥妥的幻觉了，同时也缺少具体价格信息。

再问它具体讲了什么内容：

在第二问中 Gemini 1.5 Flash 开始一本正经胡说八道了。

这本书到底讲了啥内容，目录在这儿了。

书籍《这就是ChatGPT》目录

单凭一张图让 Gemini 1.5 Flash给出一本书的详细内容是不现实的。因为它在图片信息过多的时候，非常容易产生幻觉，混淆信息，产生误导，总之对于AI，依旧要持批判态度，不可轻信。

最后

在这个“什么都快”的时代，Flash 真是名不虚传，生成的内容又快又好。

无论是识别和解释撒切尔效应的图像，还是通过视频教学指导游戏，Gemini 1.5 Flash 都展现了强大的分析能力和高效的处理速度。对于文字、图片、视频的分析理解能力又上了一层楼。

但同时 Gemini 1.5 Flash 也有自己的局限，多模态输出能力欠佳。

在图片测试中，Gemini 1.5 Flash 不能直接生成图片，这一点得向 ChatGPT-4o 学习学习。
在视频测试中，Gemini 1.5 Flash 虽然能识别视频中的主要内容和画面细节，但在处理音频输入时还有些不足，这在多模态输出方面也体现出来。

话说回来，Gemini 1.5 Flash 本就是是一款轻量级且高效的多模态 AI 模型，它不仅能处理复杂的多模态输入，还能在多种应用场景中快速、准确地响应。能有这样的水准已经超乎我的意料了！

未来，随着技术的进步，期待 Gemini 系列模型在更多领域大展身手，甚至成为我们日常生活中的得力助手。想象一下，有一天它可能会帮你完成所有的作业呢！

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。