谷歌想压轴,压OpenAI,亮出推理模型Gemini 2 Flash Thinking Experimental
未尽研究
2024-12-20 12:04
发布于上海
未尽研究官方账号
谷歌推出了推理大模型Gemini 2 Flash Thinking Experimental,赶在圣诞节和2025年来临之前、就在OpenAI正式推出o1之后一周。
它的模型卡说明是
“
最适合多模态理解、推理和编码”,能够
“
在编程、数学和物理学等领域解决最复杂的问题
”
。由于它还是实验性模型,目前只接受
32k token
以内的图片与文本输入,并限定为
8k token
以内的文本输出。该模型的训练过程、架构、许可和成本的完整细节尚未公布。
谷歌上下非常重视这款大模型。谷歌
CEO
皮查伊称之为“我们迄今为止思考最周到的模型”
。
谷歌
DeepMind
的
CEO
哈萨比斯评论称“已经对‘思考’思考了很久”。
谷歌
DeepMind
首席科学家
Jeff Dean
立即发出初步测评结果显示,
Flash Thinking Experimental
胜过了
o1
的预览版。谷歌
AI Studio
产品线的
Logan Kilpatrick
将它称为
“
谷歌推理之旅的第一步
”
。
其他测评还初步发现:
Flash Thinking
比
o1
更快;
在
Google AI Studio
可以免费试用;
推理过程更透明;
仍然会犯一些明显的错误。
允许用户查看决策过程,一定程度上缓解了长期以来对
AI
“黑匣子”的担忧。
Karpathy
很喜欢它的透明度,认为与模型
o1
不同,
Flash Thinking
展示了推理过程的痕迹,是“显著且令人愉快的惊喜”。他推测那些反对展示推理痕迹的公司,理由通常是担心竞争对手收集推理过程,并在不同的基础模型上模仿这种做法。
但谷歌不必这么做。它就是这种方法的创造者。业界认为
o1
也是用了同一方法,都是根据
8
月份发布的一篇论文:《优化扩展大语言模型测试时计算,会比扩展模型参数更有效》(
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
)。这可能是
2024
年的最佳论文,出自谷歌
DeepMind
。
Flash Thinking
在
Gemini 2 Flash
的基础上,在“测试时”进一步训练而成。后者
8
天前刚发布,是
Gemini 2.0
系列的第一个模型,已经凭借更快的反应与更强的性能,取代
Gemini 1.5 Pro
成为谷歌旗舰模型。人们推测还会有
Gemini 2.0 Pro
,也许这就是谷歌内部称
Flash Thinking
为“第一步”的含义。
谷歌显然有备而来。实验版的
Flash Thinking
一开始就适配了图片模态,与满血版的
o1
保持一致。除了更快、更便宜、更透明,更多模态的“慢思考”也将是未来竞争的重点之一。
在专家的热议中,都不约而同地提到了中国的两个推理模型:深度求索的
DeepSeek-R1
和阿里千问的
Qwen-QwQ
。它们在
o1
之后两个月即发布,早于谷歌的
Flash Thinking
。
新的主流叙事似乎是预训练扩展已死,推理扩展已经成为竞争前沿。今年早些时候,彭博社报道称,谷歌已指派了几个
AI
研究团队来构建推理优化的大模型。
The Information
后来称,从事该项目的工作人员人数超过
200
人。如今,谷歌将为
OpenAI
带来直接竞争。
这个推理大模型沿用了
Gemini
系列的命名,而
o1
放弃了
GPT
系列的命名,全称是
OpenAI-o1
,作为
ChatGPT
中间的一个与
GPT-4o
并列的选项。这也许意味着
DeepMind
将打造一个快思考与慢思考融合的模型。谷歌旗下还拥有
AlphaGeometry
和
AlphaProof
这两个推理系统,分别用于解决几何问题和生成数学证明,前者同样基于
Gemini
,后者则基于
AlphaGo
。
不过,谷歌方面也承认,这个实验产品还有些粗糙。有科技媒体问了这个谷歌推理模型一个问题:
“strawberry
这个单词中有几个字母
r ?”
它经过思考和推理后的回答是:
2
个。这种情况与当初
o1 preview
推出时一样。
目前
Flash Thingking Experimental
还没有与满血版的
o1
的测评比较结果。而
The Information
称
OpenAI
正在准备
o1
的下一代
o3
。
OpenAI
该急了,在漫长的
12
天的发布周期里,人们越来越怀疑它的模型
/
技术优势正在消失,剩下更多的是品牌价值。
这为明年“慢思考”竞赛奠定了基调。市场期待
Anthropic
、
Meta
、
Mistral
会拿出什么来竞争,
DeepSeek-R1
与
Qwen-QwQ
目前也还没推出正式版。
查看原图 285K