对飙OpenAI o1模型！谷歌发布新推理模型Gemini 2.0 Flash Thinking

腾讯科技

2024-12-20 07:26发布于北京腾讯新闻科技频道官方账号

12月20日消息，美国当地时间周四，谷歌发布了多模态推理模型Gemini 2.0 Flash Thinking。凭借卓越的速度与透明度，这款新模型能够高效应对复杂问题，与OpenAI的o1模型直接竞争。

谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）在社交平台上分享道：“这是我们到目前为止，经过最多仔细研究和设计推出的模型。”

开发者文档中，谷歌进一步阐释：“相较于基础版Gemini 2.0 Flash模型，Gemini 2.0 Flash Thinking在推理能力上有了显著提升。”

不过，新模型只支持32000个Token的输入内容（大约相当于50至60页的文本量），并且每个输出响应能够生成8000个Token。在谷歌AI Studio的介绍中，该公司强调新模型特别擅长“多模态理解、推理”以及“编码”任务。

目前，关于Gemini 2.0 Flash Thinking模型的培训流程、架构设计、许可要求及成本等详细信息尚未公开。不过，在谷歌AI Studio平台上，使用该模型进行处理的每个Token成本暂为免费。

易于理解、更透明的推理

与OpenAI的竞争对手推理模型o1和o1 mini相比，Gemini 2.0 Flash Thinking可通过下拉菜单向用户展示其逐步推理的过程，使得模型得出结论的方式更加清晰明了，透明度更高。

Gemini 2.0 Flash Thinking让用户能够窥见决策制定的全过程，从而破解了长久以来人们对人工智能如“黑箱”般运作的疑虑。尽管其许可条款尚未明确，但这一模型已足以与其他开源的竞争对手模型相媲美。

在对Gemini 2.0 Flash Thinking进行初步的简单测试中，它迅速且准确地（在1到3秒内）解答了一些对其他人工智能模型而言颇为棘手的问题，例如计算单词“Strawberry”中字母R的数量。

在另一项测试中，当需要对两个十进制数（9.9和9.11）进行比较时，该模型有条不紊地将问题拆解为更细致的步骤，从整数部分的分析到小数点后数字的对比，均一一呈现。

根据独立基准测试网站LM Arena的初步测试结果，Gemini 2.0 Flash Thinking在数学、创意写作以及视觉任务等多个类别中均拔得头筹。但这些排名并未涵盖OpenAI的满血版o1模型，从当前已知的数据来看，OpenAI的满血版o1模型似乎更具优势。

尽管如此，Gemini 2.0 Flash Thinking可以被视为谷歌对OpenAI o1-mini的有力回应。未来，我们或许还能见到谷歌推出更加强大的版本，比如Pro版或Ultra Thinking版。

上线即支持图像上传和分析

与OpenAI逐步优化o1模型的方法不同，Gemini 2.0 Flash Thinking自诞生之初就被赋予了处理图像的能力。相比之下，o1最初仅以纯文本模式亮相，后来才逐渐增加了对图像和文件上传分析的支持。目前，这两个模型都主要输出文本形式的结果。

据开发者文档所述，Gemini 2.0 Flash Thinking暂不支持与谷歌搜索的绑定功能，也未实现与其他谷歌应用程序或外部第三方工具的集成。

Gemini 2.0 Flash Thinking凭借其多模态功能，拓宽了潜在应用场景，能够应对融合不同类型数据的复杂任务。例如，在一次测试中，该模型成功解决了一个涉及文本与视觉元素综合分析的难题，充分展示了其在跨模式集成与推理方面的广泛适用性。

开发者可以通过谷歌AI Studio和Vertex AI平台利用这些强大功能，进行各种实验和探索。

随着人工智能领域的竞争愈发白热化，Gemini 2.0 Flash Thinking或许预示着解决问题模型新时代的到来。它不仅能够处理多样化的数据类型，提供直观可见的推理过程，还能在规模上高效执行，使其在推理人工智能市场与OpenAI的o1系列模型及其他竞品竞争。

谷歌加入AI测试时间计算

与竞争对手一样，谷歌也不再仅仅追求人工智能模型的规模扩张。据报道，谷歌通过在Gemini 2.0中融入更多训练数据，实现了实质性的改进，并开创了一种新方法，使模型在使用过程中能拥有更多时间来处理信息。

谷歌招募人才的动作也引发关注，该公司以高达25亿美元的价格收购了著名人工智能研究员诺姆·沙泽尔（Noam Shazeer）的公司。沙泽尔是所谓的“谷歌八子”之一，是《Transformer》论文的合著者之一，专攻业界热议的“推理模型”。

Gemini 2.0 Flash Thinking似乎是沙泽尔工作的首个成果，该系统并未侧重于利用海量数据进行预训练，而是将更多计算能力投入到业界所称的“推理时间”上，即模型实际执行问题解决任务的时间。OpenAI在其o1模型中也采纳了类似策略。

近期一项由Hugging Face进行的研究为这一新方向提供了有力支撑，表明具备更强处理能力的小模型在某些情况下能够媲美或超越大型系统。在一项测试中，一个仅拥有10亿参数的Llama模型，其表现与参数为其8倍的大模型不相上下。（腾讯科技特约编译金鹿）

查看原图 534K