推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

机器之心

2024-12-20 12:25发布于北京机器之心官方账号

全文2080字，阅读约需6分钟，帮我划重点

划重点

01谷歌发布了Gemini 2.0 Flash Thinking，一款具有推理能力的聊天机器人，可在编程、数学、创意写作等方面取得优秀成绩。

02与OpenAI的o1-preview相比，Gemini 2.0 Flash Thinking在推理速度上具有明显优势，且在各项评测任务中均排名第一。

03该模型能准确识别视觉内容并进行数学推理，但偶尔会犯错，如无法正确识别包含多个“r”的单词“strawberry”。

04除此之外，Gemini 2.0 Flash Thinking还能理解和解答非常困难的问题，如三赌徒问题，成为首个正确解答该问题的模型。

以上内容由腾讯混元大模型生成，仅供参考

机器之心报道

编辑：Panda、小舟

不仅能推理，还能明确展示自己「推理逻辑」的大模型出现了。

OpenAI 的 12 天连续发布已近尾声，但它的热度显然已经被谷歌夺去了许多。从 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking，谷歌端上来的菜真是一道比一道香。

从名字也能看出来，Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash，只是其经过专门训练，可使用思维（thoughts）来增强其推理能力。

据 Jeff Dean 介绍，Gemini 2.0 Flash Thinking 还会明确展示其思考过程。下面是 Jeff Dean 在 X 上发布的一个 demo—— 其中，模型解答了一个物理问题并解释了自己的推理过程，整个过程耗时 1 分多钟。

虽然 Flash 版本还不是 Gemini 2.0 的满血版，但这个 Thinking 模型就已经登顶了 Chatbot Arena 排行榜。Gemini 2.0 Flash Thinking 不仅是总分第一，在编程、数学、创意写作等各项评测任务上都是第一名（有些是并列第一）。

Targum 创始人和 CEO Alex Volkov 则通过 10 个难题对 o1-2024-12-17 和 gemini-2.0-flash-thinking-exp-1219 进行了对比测试，结果发现这两个推理模型的表现相当，而后者的速度要快得多。

而根据另一位研究者 Subhash Peshwa 的测算，Gemini 2.0 Flash Thinking 的思考速度是 o1-mini 的 2 倍。

Gemini 2.0 Flash Thinking 发布后，网友们都纷纷点赞，并乐见其与 ChatGPT 和 Claude 等聊天机器人的竞争。

目前，Gemini 2.0 Flash Thinking 实验版完全可以免费使用，感兴趣的读者可访问：
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-1219

表现优异，但也会犯错

首先，Gemini 2.0 Flash Thinking 在数学推理方面速度快、质量高。例如，Gemini 2.0 Flash Thinking 在 14 秒内破解了 goto 数学题，比任何其他可以解决该问题的模型快 5 倍：

在一道求解数学期望的问题上，OpenAI 的 o1 求解错误，而且推理速度很慢，而 Gemini 2.0 Flash Thinking 仅用 2/7 的时间就正确解答：

解一道简单的数学推理题：挑选数字小球，使数字总和为 30：

来源：https://x.com/OfficialLoganK/status/1869789822384255300

Gemini 2.0 Flash Thinking 迅速解答，而且给出了详细的推理过程。

DeepMind 首席科学家 Jack Rae 在纸上手写了一道数论问题，也是他的工作面试问题，Gemini 2.0 Flash Thinking 轻松解决了：

来源：https://x.com/drjwrae/status/1869806621024772096

可见，Gemini 2.0 Flash Thinking 可以准确识别视觉内容，并进行数学推理。

有时也会翻车，知道「strawberry」有 3 个「r」，但「strawberrry」就数不清了：

「9.9 和 9.11 谁大」这事还是没能解决：

顺带一提，关于现在的 LLM 难以数出 strawberry 中 r 数量的深层原因，可以参阅机器之心之前的报道《他们掰开神经元，终于让大模型 9.8 大于 9.11 了：神秘创业公司，开源 AI「洗脑」工具》。

Gemini 2.0 Flash Thinking 还有能力理解和解答非常困难的问题，比如斯坦福 NLP 的统计学家 Zitong Yang 就分享了自己的一个用来测试推理模型的问题：三赌徒问题。然后他惊喜地发现，Gemini 2.0 Flash Thinking 成为了首个正确解答该问题的模型，而他之前测试的 o1-preview、o1、r1、QwQ 模型都未能过关。

三赌徒问题：假设三个赌徒最初有 (a, b, c) 美元。每次试验都是随机选择两个玩家，让他们公平地掷一枚硬币；根据输赢，他们会正常地转手 1 美元。玩家一旦破产，就会退出。令 (S_1) 表示一名玩家破产所需的游戏局数。令 (S_2) 表示两名玩家破产所需的游戏局数。求 S_1 和 S_2 的期望。

下面是 Gemini 2.0 Flash Thinking 的部分思考过程和最终答案。