Google 深夜发布免费版 o1「暴打」OpenAI,实测解题快 3 倍,这句高情商回答绝了

全文2083字,阅读约需6分钟,帮我划重点

划重点

01Google发布了类似于OpenAI o1的推理模型Gemini 2.0 Flash Thinking,实测解题速度比OpenAI o1快3倍。

02OpenAI发布了桌面版ChatGPT与Mac应用的深度集成能力,有望成为靠谱的生产力搭子。

03Gemini 2.0 Flash Thinking在大模型竞技场LMSYS上表现出色,解决了多个复杂问题。

04此外,OpenAI还展示了ChatGPT在写作和编程方面的实用功能,如与30多种应用协作。

05最后,OpenAI CPO Kevin Weil预告明天将发布令人兴奋的新产品,引发关注。

以上内容由腾讯混元大模型生成,仅供参考

OpenAI 又是被抢头条的一天。
发布会前夕,Deepmind 抢先发布了与 o1 模型类似的 Gemini 2.0 Flash Thinking 模型,在大模型竞技场 LMSYS 上杀疯了。
而随后 OpenAI 发布会则重点展示了桌面版 ChatGPT 与 Mac 应用的深度集成能力。
可以说,桌面版 ChatGPT 正有望成为你最靠谱的生产力搭子。
图片
抢先实测 Google 版 o1,效果大出所料
没有人比 Google 更懂「狙击」。
今天凌晨,Google 重磅推出了 Gemini 2.0 Flash Thinking 模型,从名字上就可以看出,这是一款类似于 OpenAI o1 的推理模型。
图片
转投 Google 阵营的 Logan Kilpatrick 在 X 平台上发文称:
「就在你以为一切都结束了的时候… 我们推出了 Gemini 2.0 Flash Thinking。
这是一种新的实验模型,可以解锁更强的推理能力并展示其思考过程,能够以闪电般的速度解决复杂问题,以及还有更多功能。
在大模型竞技场 LMSYS 上真·战绩可查。
图片
当然,旁人说得再好,不如亲自上手体验。
我们也第一时间上手实测了这款新模型,先来「9.11 和 9.8 哪个大」的经典问题,结果新模型轻松拿捏,甚至还能用钱举例。
图片
「strawberry 中有几个 r」也手拿把掐,点开后还能看到其清晰的「思考」步骤。
图片
面对职场分水难题「你有 4 杯水,来了 5 个领导你该怎么办?」,Google 版 o1 又会如何应对?满分十分,你给这个答案给几分?
向左滑动查看更多内容

对于「有轨电车难题」的回答,除了前面有条不紊的回答,我更喜欢这位新选手最后一句高情商的回答:

「理解你的思考过程比得到一个『正确』答案更重要。」

向左滑动查看更多内容

为了考察新模型是否「偏科」,我也上传了一道考研数学热门题,并让它和 OpenAI o1 模型同时作答。

省去繁琐的运算过程后,两者得出的结果一致,但 Google 版 o1 只花了 27.5 秒,相比之下,OpenAI o1 花了足足 1 分 32 秒。

向左滑动查看更多内容
当然,最好的评价还是亲自上手。附上体验地址 👇:
https://aistudio.google.com/prompts/new_chat

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

给 Mac 装上最强大脑,这才是真正的人机交互
在被抢头条后,OpenAI 也不慌不忙地如期举行了发布会。

全新桌面版 ChatGPT 将超越单纯的问答,能够通过与 30 多种应用协作来辅助提升你的写作和编程能力。
图片
使用方式也十分简单,用户只需确保目标应用正在运行,然后在 ChatGPT 聊天栏中点击「与应用协作」(Work With Apps)按钮并选择相应应用即可。
聊天栏上方会显示当前协作的应用程序,用户可以随时查看 ChatGPT 将要处理的内容范围。这些互动记录会保存在用户账户中,直到被删除或经过 30 天自动清除。
图片
在实际演示中,OpenAI 工作人员通过 Mac 版 ChatGPT 展示了多项实用功能。
以 Warp 控制台为例,ChatGPT 能够根据演示人员要求快速生成 Git 命令来统计代码库的每日提交次数,并将其数据可视化为富有圣诞节气氛的柱状图。
图片
在这个过程中,它正是充分使用了 Advanced Data Analysis(高级数据分析)等内置功能。
为保护用户隐私,OpenAI 演示人员表示只会访问用户明确授权的应用内容。
但在查阅 OpenAI 官网后发现,这些交互数据可能会被用于模型训练,因此你需要在设置中调整数据使用权限,甚至按需禁用应用协作功能。
图片
在 IDE 方面,演示人员通过 Xcode 展示了应用协作功能的技术细节。通过 MacOS 的可访问性 API,ChatGPT 能够精确识别并操作界面元素,包括文本字段、行数及内容等。
「它还告诉我们这个文本字段有 37 行,我们可以向下检查确认是否是 37 行。」
有趣的是,演示过程再次上演翻车场面。
当要求 ChatGPT 添加「观察者」功能,选择变化加载文本区域时,o1 生成的代码在 Xcode 运行失败,直到修正过后才成功。
图片
值得一提的是,这项功能不仅支持 Xcode,还覆盖了 VS Code、Jetbrains 全家桶等主流开发工具。
写作场景是日常最实用的场景之一。
Mac 版 ChatGPT 也将支持 Notes、Notion 和 Quip 等多款应用,为用户带来全新的写作协作体验。
作为旧金山徒步历史导览员,OpenAI 演示人员通过自己正在设计的导览项目生动展示了这些新功能。
图片
比如说,在 Notion 文档中,他正尝试编写关于旧金山历史人物「诺顿皇帝」的介绍,但如何描述历史人物的生平,如何挖掘有趣细节等等都是一门不小的学问。
借助搜索功能,ChatGPT 能够查证历史文献和研究资料,快速补充诺顿皇帝在旧金山的活动轨迹、与当地居民的互动等生平细节,并对其过往行为进行深入解读。
了减少 AI 的机器味,我们也能要求其模仿 Notion 文档中的语言表达方式和叙述节奏,对内容进行调整,使其更加流畅自然。
图片
除了文本交互,ChatGPT 高级语音模式还有新玩法。
作为一名职业萨克斯演奏家,OpenAI 演示人员还能与前不久刚推出的「圣诞老人」限定语音讨论节日派对曲目的选择。
图片


演示人员还即兴演奏了一段动听的萨克斯乐曲。


图片


目前,上述提到的新功能已在 macOS ChatGPT 最新版本中上线,而 Windows 版本很快也会推出。
不妨再耐心等待一下。


发布会最后,OpenAI CPO Kevin Weil 还预告明天将会发布「令人兴奋」的新产品。


Google、Anthropic 等公司面对年底最后一轮 AI 狂欢,是否又会再次放大招「狙击」?

一切都值得拭目以待。

APPSO 也将在明天凌晨第一时间送上最新报道。