“大模型下一个范式是通过强化学习来做。”
编辑|易瑾
没有预告和公开发布会,OpenAI在9月13日凌晨发布了造势已久的“草莓”模型,新名字叫“o1”。
值得注意的是,o1发布的还是“预览版”,在发布信息中OpenAI强调,他们尚未完全了解如何最佳地使用该模型,希望通过用户的反馈来进一步完善。
o1系列分包含三款模型:OpenAI o1、OpenAI o1-preview和OpenAI o1-mini。其中,OpenAI o1-preview和OpenAI o1-mini两款模型对用户开放使用。
OpenAI表示,ChatGPT Plus和Team用户将能够在ChatGPT中访问o1 模型,不过也有一定限制,就是在发布时,用户每周发送消息次数限制为o1-preview30条消息和o1-mini 50条消息。
至于价格,早先The information曾爆料,OpenAI高管拟将推出的全新大模型“草莓”(Strawberry)和“猎户座”(Orion)的价格定在2000美元/月,这引发一众吐槽和声讨。但近日有人发现,ChatGPT Pro会员已上线,售价为200美元/月。
o1的发布再次引起行业关注,圈内人士也相继研究起来。整体上看分两派:一派认为o1代表着Scaling Law以外新路径的开启,另一派则认为这是OpenAI为了融资的炒作行为。
而国内的大模型创业公司,更多的是将重心放在了应用开发上。8月29日,智谱在数据挖掘顶会KDD上公布了基础模型的新进展,并升级了AI助手智谱清言,上线了视频功能。两日后即8月31日,Minimax旗下大模型应用海螺AI,上线了视频生成和音乐生成功能。
OpenAI兑现“期货”
OpenAI的研究负责人Jerry Tework向The Verge透露:“o1使用了一种全新的优化算法和为其量身定制的新训练数据集。”也因此模型的命名并未延续GPT系列,而是“被命名为o1,以表示‘将计数器重置回1’。”
AI圈网红Jim Fan表示,o1的发布里程碑意义在于,它验证了此前所说的“两条曲线协同工作”理论,展示了训练计算和测试计算如何共同影响模型的最终性能。
o1的表现到底如何?OpenAI公布了一些数据。数学方面,在2024年美国数学邀请赛(AIME)中,GPT-4o的平均正确率为12%(15道题解决1.8题),o1在首次尝试的平均正确率就达到了74%。
GPQA Diamond是一项专门评估化学、物理和生物等领域专业知识的测试。o1不仅完成了这项测试,还超越了拥有超越了部分拥有相关领域博士学位的人类专家。编程方面,o1在国际信息学奥林匹克竞赛(IOI)中也表现卓越,在和人类参赛者相同的条件下,o1获得了213分的高分,位列参赛者的前50%。总的来说,全新的o1系列,在复杂推理上的性能又提升到了一个全新级别。
在价格上,对于开发者而言,通过API使用o1的成本并不便宜。o1-preview的定价为每百万输入token 15美元,每百万输出token 60美元,高于GPT-4o的定价:输入5美元/百万token,输出 15美元/百万token。
然而,现在o1还有许多不足之处。首先,目前亮相的o1预览版仍有一定局限性,如无法浏览网页或接收上传的文件和图像。OpenAI表示,对于这类任务,GPT-4o仍是最佳模型选项。
其次,在用户的长时间使用中也有短板暴露。例如,沃顿商学院教授Ethan Mollick向 o1-preview 提交了八条关于填字游戏的线索,要求其将内容翻译成文本。o1模型通过多个步骤共耗时108秒才给出答案,虽然结果完全正确,但虚构了一条Mollick并未给出的特定线索。
中国人民大学国际货币研究所研究员、独立国际策略研究员陈佳分析道,o1-preview版本已初步具备类人思考能力,这直接导致其数学、物理和解码解构能力有突飞猛进,ChatGPT再也不是那个“数数都数不好,让她生成一句二十个字的回答,都做不到”的“笨娃”了。
在陈佳看来更重要的是,其在现代中文语境下的理解力,堪比中文母语的高级知识分子,很多晦涩的网文、俚语、甚至所谓的火星文,OpenAl的o1这一版是真的都能读懂了。不过他也表示这种真正聪明的能力也存在潜在的威胁,未来一旦接入现实生活,安全性如何保证是值得思考的。
OpenAI o1的发布,也引发了行业内关于大模型进化新范式的讨论。月之暗面创始人杨植麟最近在天津大学的一场分享上表示,下一个范式是通过强化学习来做。“为什么要强化学习?就是因为刚才说的天然数据不够用了,最近OpenAI会发布o1,标志着从左边的范式迁移到右边范式,因为左边范式数据不够了。就像刚才说的这个世界上数学题就这么多,如果要提升数学怎么办呢?可以一直生成更多的题,然后自己做题,有的做对了,有的做错了,然后去学习哪些做对了,哪些做错了,你就可以持续提升,这个本质上就是强化学习的过程。”
国内大模型厂商“卷”应用
进入2024年,国内大模型公司都在高举“应用”旗帜,智谱和MiniMax在近日都上线了AI功能,苹果秋季发布会已于9月10日正式举办,基于此让Minimax的海螺AI生成了宣传视频,直接在文本框内输入要生成视频的提示词即可。据公开资料显示,最多输入500个文字,一次能生成5—6秒视频。
体验过程中发现海螺AI的生成时间较长,6秒视频均等待超过7分钟,有的甚至超过10分钟。争对司机长等待问题,Minimax相关人员表示由于最近体验人太多,有些延迟。
智谱AI:(前奏) (主题旋律) 梦想照亮未来,世界在手中翻转变幻, 每一刻创新,点亮心中的火花。
(副歌) Apple的奇迹,再次唤醒世界的目光, 携手前行,追逐星辰大海的远方。
(桥段) 触摸边界,打破常规,我们定义时代, 智慧绽放,连接你我,共绘未来篇章。
(副歌) Apple的奇迹,再次唤醒世界的目光, 携手前行,追逐星辰大海的远方。
(高潮) 无限可能,在此刻绽放, 苹果的力量,引领我们飞翔。
(尾声) 迎接新生,拥抱改变, Apple,开启全新篇章。
海螺AI:在果园深处 晨露闪耀
苹果成熟时 红艳如霞
一颗颗果实 蕴含希望
新篇章开启 在指尖跳跃
秋风轻拂过 绿叶转黄
树梢轻摇着 未来的模样
咬一口新鲜 满口甘甜
未来篇章里 我们共同书写
阳光洒满地 金色梦想
新的一页 等待我们去描绘
心怀信念 我们勇敢前行
在新篇章的序曲中 我们共同歌唱
智谱轻言则上线了视频通话功能,据介绍,用户拨打清言App的视频通话窗口,即可与它进行流畅通话。只要打开摄像头,用户看到的画面,清言App也可以看到,同时可以听懂指令并准确执行。
比如对着一位女生问年龄时,它会说一个区间值,同时会说一下女生的面部特征,进行夸奖。行走在大街上询问它此时路面状况时,它会告诉你车辆拥挤程度已经面前车辆特征。
自2023年大模型火爆以来,“百模大战”下智谱AI、零一万物、百川智能、MiniMax、月之暗面、阶跃星辰在激烈竞争中凸显,被誉为“大模型六小虎”。
在六虎中最为低调的是阶跃星辰,近日,阶跃星辰在其开放平台体验中心,正式上线了图像生成大模型Step-1X,注册即可体验。此前在WAIC上阶跃星辰一口气发布了万亿参数语言大模型Step-2、多模态大模型Step-1.5V和图像生成大模型Step-1X三款大模型。其CEO姜大昕是原微软全球副总裁,更是鲜少出现在大众面前,据悉其将会出席2024云栖大会。
此前有消息称阶跃成正在进行一轮估值20亿美元的新融资,投资方还包含阿里巴巴。零一万物、百川智能、智谱AI在近日也传出了好消息。据媒体报道,零一万物已经完成新一轮融资,金额达数亿美元。知情人士表示,此轮融资参与方包括某国际战投、东南亚财团等多家机构。
然而随着各家产品的推出、应用的落地情况、人员的变动等消息频繁引起热议,AI六虎何去何从的问题也时常被提及。近日知名投资人在接受界面新闻采访时谈及六虎最后如何收场时表示并不乐观,在他想象中最好的结果是卖给大厂。
从整体上看,陈佳认为全球AGI全面迈向拟人化思维的进程已经不可阻挡,o1只不过是一个号角,因此他表示中国AI产业链必须尽快顺应这个潮流,加速从单模态大模型转型多模态大模型,并早日迈向全面拟人化思维的AGI 之路,真正让AI变得像人,才能有更广阔的应用机遇。
综合自OpenAI、腾讯科技、智能涌现等