谷歌想压轴,压OpenAI,亮出推理模型Gemini 2 Flash Thinking Experimental


谷歌推出了推理大模型Gemini 2 Flash Thinking Experimental,赶在圣诞节和2025年来临之前、就在OpenAI正式推出o1之后一周。
它的模型卡说明是最适合多模态理解、推理和编码”,能够在编程、数学和物理学等领域解决最复杂的问题。由于它还是实验性模型,目前只接受32k token以内的图片与文本输入,并限定为8k token以内的文本输出。该模型的训练过程、架构、许可和成本的完整细节尚未公布。
谷歌上下非常重视这款大模型。谷歌CEO皮查伊称之为“我们迄今为止思考最周到的模型”谷歌DeepMindCEO哈萨比斯评论称“已经对‘思考’思考了很久”。
谷歌DeepMind首席科学家Jeff Dean立即发出初步测评结果显示,Flash Thinking Experimental 胜过了o1的预览版。谷歌AI Studio产品线的Logan Kilpatrick将它称为谷歌推理之旅的第一步
图片
其他测评还初步发现:
  • Flash Thinking o1更快;
  • Google AI Studio可以免费试用;
  • 推理过程更透明;
  • 仍然会犯一些明显的错误。
允许用户查看决策过程,一定程度上缓解了长期以来对AI“黑匣子”的担忧。Karpathy很喜欢它的透明度,认为与模型o1不同,Flash Thinking展示了推理过程的痕迹,是“显著且令人愉快的惊喜”。他推测那些反对展示推理痕迹的公司,理由通常是担心竞争对手收集推理过程,并在不同的基础模型上模仿这种做法。
但谷歌不必这么做。它就是这种方法的创造者。业界认为o1也是用了同一方法,都是根据8月份发布的一篇论文:《优化扩展大语言模型测试时计算,会比扩展模型参数更有效》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)。这可能是2024年的最佳论文,出自谷歌DeepMind
Flash ThinkingGemini 2 Flash的基础上,在“测试时”进一步训练而成。后者8天前刚发布,是Gemini 2.0系列的第一个模型,已经凭借更快的反应与更强的性能,取代Gemini 1.5 Pro成为谷歌旗舰模型。人们推测还会有Gemini 2.0 Pro,也许这就是谷歌内部称Flash Thinking为“第一步”的含义。
谷歌显然有备而来。实验版的Flash Thinking一开始就适配了图片模态,与满血版的o1保持一致。除了更快、更便宜、更透明,更多模态的“慢思考”也将是未来竞争的重点之一。
在专家的热议中,都不约而同地提到了中国的两个推理模型:深度求索的DeepSeek-R1和阿里千问的Qwen-QwQ。它们在o1之后两个月即发布,早于谷歌的Flash Thinking
新的主流叙事似乎是预训练扩展已死,推理扩展已经成为竞争前沿。今年早些时候,彭博社报道称,谷歌已指派了几个 AI 研究团队来构建推理优化的大模型。The Information 后来称,从事该项目的工作人员人数超过 200 人。如今,谷歌将为OpenAI带来直接竞争。
这个推理大模型沿用了Gemini系列的命名,而o1放弃了GPT系列的命名,全称是OpenAI-o1,作为ChatGPT中间的一个与GPT-4o并列的选项。这也许意味着DeepMind将打造一个快思考与慢思考融合的模型。谷歌旗下还拥有AlphaGeometryAlphaProof这两个推理系统,分别用于解决几何问题和生成数学证明,前者同样基于Gemini,后者则基于AlphaGo
不过,谷歌方面也承认,这个实验产品还有些粗糙。有科技媒体问了这个谷歌推理模型一个问题:“strawberry这个单词中有几个字母r ?” 它经过思考和推理后的回答是:2个。这种情况与当初o1 preview推出时一样。
目前Flash Thingking Experimental还没有与满血版的o1的测评比较结果。而The InformationOpenAI正在准备o1的下一代o3OpenAI该急了,在漫长的12天的发布周期里,人们越来越怀疑它的模型/技术优势正在消失,剩下更多的是品牌价值。
这为明年“慢思考”竞赛奠定了基调。市场期待AnthropicMetaMistral会拿出什么来竞争,DeepSeek-R1Qwen-QwQ目前也还没推出正式版。