大数据文摘受权转载自夕小瑶科技说
家人们!OpenAI o1 满血版(o1 Pro)大家用上了吗!
作为 OpenAI 的 12 天直播计划的首位登场重量嘉宾,o1 满血版本,可以说是遥遥领先!在代码和数学领域远超 o1-preview!
而且,o1 Pro 思考速度也比 o1-preview 快 50%,效率提高 34%。最重要的是,o1 和 o1 pro 上还带上了视觉功能,上传图片就能做视觉推理里。
总而言之,确实值得 OpenAI 拿出来作为首秀 ~
而 o1 满血版上线仅仅两天,网友们已经压榨它压榨的灰常到位!!已经玩出花了 hh,奶茶带大家一起看看网友们的花活 ~
01 从截图还原复现网站
网友为了测试代码生成能力,截取了一个网站的屏幕截图,让流行的几个大语言模型根据网页截图写代码复现网站 ~
让我们看看各家的表现!
o1 普通版:
嗯 ~ 中规中矩,整体表现还不错!
最新版本的 Gemini-1206:
明显实现的功能更多了!
o1 满血版
原图网友没放出来,奶茶去网上找了下,原图大概是酱个样子:
虽然都不是很像啊 hh 但是 o1 Pro 明显完成了更多的功能 ~
02 o1 pro + midjourney + bolt.new 开发游戏
网友尝试探索一种新的创作流程:首先,他们利用 Midjourney 生成图片中的人物和场景。接着,在 Photoshop 中进行微调,去除背景并扩展场景背景,为了适应游戏关卡的需求。
此外,他们从 Artlist 中精选游戏音效和音乐,以增强游戏体验。
最后,他们使用一系列精心挑选的提示词,引导 o1 生成一个完整的游戏。提示词如图所示:
接着,网友们采用 StackBlitz/Bolt 作为开发环境,成功生成了游戏。如视频中所展示:
03 做奥林匹克数学竞赛中最难的题目
网友又让 o1Pro 去做奥赛题!
如下图所示,o1 Pro 仅用时 6 分 48 秒就成功解答了 2006 年国际数学奥林匹克竞赛(IMO)的第三题——当年公认难度最高的题目。
2006 年全球约 500 名 19 岁以下的顶尖数学学生中,仅有 28 人能够完全解答此题……他们拥有 4 个半小时的时间来攻克……而 6 名美国队成员中无一人能够解决这个问题……
网友们尝试使用其他所有模型(包括 o1)来解决这个问题,结果 o1 Pro 是唯一一个大语言模型给出了正确答案。
04 搞定数学教授认为解不了的数独谜题
大家会做数独吗!先给大家上一道题尝尝咸淡!
嘶,奶茶尝试做了下,根本不会啊。。
网友让 o1-Pro 来帮忙解决!
虽然解题时出了点小差错,但它能自己调整过来。在处理第五行的时候,它通过排除 R5C7=1,巧妙地解决了第七列的冲突,这一步可能是找到答案的关键。整个过程用了 5 分半钟,最后 o1-Pro 成功解开了数独谜题。
这位网友还提到,之前数学教授曾经和他说,Transformer 这类的大模型是不是可能解决数独谜题的。。。那 o1 Pro 的表现是不是 piapia 打脸了
但是,也有人认为并没有打脸,即使大语言模型解开了数独,但是他们做出来的,永远都不是真的“会做”。