谷歌想压轴，压OpenAI，亮出推理模型Gemini 2 Flash Thinking Experimental

未尽研究

2024-12-20 12:04发布于上海未尽研究官方账号

谷歌推出了推理大模型Gemini 2 Flash Thinking Experimental，赶在圣诞节和2025年来临之前、就在OpenAI正式推出o1之后一周。

它的模型卡说明是“最适合多模态理解、推理和编码”，能够“在编程、数学和物理学等领域解决最复杂的问题”。由于它还是实验性模型，目前只接受32k token以内的图片与文本输入，并限定为8k token以内的文本输出。该模型的训练过程、架构、许可和成本的完整细节尚未公布。

谷歌上下非常重视这款大模型。谷歌CEO皮查伊称之为“我们迄今为止思考最周到的模型”。谷歌DeepMind的CEO哈萨比斯评论称“已经对‘思考’思考了很久”。

谷歌DeepMind首席科学家Jeff Dean立即发出初步测评结果显示，Flash Thinking Experimental 胜过了o1的预览版。谷歌AI Studio产品线的Logan Kilpatrick将它称为“谷歌推理之旅的第一步”。

其他测评还初步发现：

Flash Thinking 比o1更快；
在Google AI Studio可以免费试用；
推理过程更透明；
仍然会犯一些明显的错误。

允许用户查看决策过程，一定程度上缓解了长期以来对AI“黑匣子”的担忧。Karpathy很喜欢它的透明度，认为与模型o1不同，Flash Thinking展示了推理过程的痕迹，是“显著且令人愉快的惊喜”。他推测那些反对展示推理痕迹的公司，理由通常是担心竞争对手收集推理过程，并在不同的基础模型上模仿这种做法。

但谷歌不必这么做。它就是这种方法的创造者。业界认为o1也是用了同一方法，都是根据8月份发布的一篇论文：《优化扩展大语言模型测试时计算，会比扩展模型参数更有效》（Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters）。这可能是2024年的最佳论文，出自谷歌DeepMind。

Flash Thinking在Gemini 2 Flash的基础上，在“测试时”进一步训练而成。后者8天前刚发布，是Gemini 2.0系列的第一个模型，已经凭借更快的反应与更强的性能，取代Gemini 1.5 Pro成为谷歌旗舰模型。人们推测还会有Gemini 2.0 Pro，也许这就是谷歌内部称Flash Thinking为“第一步”的含义。

谷歌显然有备而来。实验版的Flash Thinking一开始就适配了图片模态，与满血版的o1保持一致。除了更快、更便宜、更透明，更多模态的“慢思考”也将是未来竞争的重点之一。

在专家的热议中，都不约而同地提到了中国的两个推理模型：深度求索的DeepSeek-R1和阿里千问的Qwen-QwQ。它们在o1之后两个月即发布，早于谷歌的Flash Thinking。

新的主流叙事似乎是预训练扩展已死，推理扩展已经成为竞争前沿。今年早些时候，彭博社报道称，谷歌已指派了几个 AI 研究团队来构建推理优化的大模型。The Information 后来称，从事该项目的工作人员人数超过 200 人。如今，谷歌将为OpenAI带来直接竞争。

这个推理大模型沿用了Gemini系列的命名，而o1放弃了GPT系列的命名，全称是OpenAI-o1，作为ChatGPT中间的一个与GPT-4o并列的选项。这也许意味着DeepMind将打造一个快思考与慢思考融合的模型。谷歌旗下还拥有AlphaGeometry和AlphaProof这两个推理系统，分别用于解决几何问题和生成数学证明，前者同样基于Gemini，后者则基于AlphaGo。

不过，谷歌方面也承认，这个实验产品还有些粗糙。有科技媒体问了这个谷歌推理模型一个问题：“strawberry这个单词中有几个字母r ?” 它经过思考和推理后的回答是：2个。这种情况与当初o1 preview推出时一样。

目前Flash Thingking Experimental还没有与满血版的o1的测评比较结果。而The Information称OpenAI正在准备o1的下一代o3。OpenAI该急了，在漫长的12天的发布周期里，人们越来越怀疑它的模型/技术优势正在消失，剩下更多的是品牌价值。

这为明年“慢思考”竞赛奠定了基调。市场期待Anthropic、Meta、Mistral会拿出什么来竞争，DeepSeek-R1与Qwen-QwQ目前也还没推出正式版。

查看原图 285K