国产大模型首超GPT-4o,李开复:中美顶尖模型的时间差只有五个月

全文1777字,阅读约需6分钟,帮我划重点

划重点

01零一万物发布了全新SOTA旗舰模型Yi-Lightning,超越GPT-4o,位居世界第一梯队大模型公司之列。

02Yi-Lightning在中文子榜单上排名世界第二,与o1-mini等模型并列。

03为此,零一万物采用Mixture of Experts(MoE)混合专家模型架构,多阶段训练模式和混合注意力机制,降低训推成本。

04同时,零一万物与阿里云、360等头部企业达成合作,推进toB业务。

05除此之外,零一万物推出AI 2.0数字人,提供动作训练、表情生成等能力,以及AI 2.0门店短视频解决方案。

以上内容由腾讯混元大模型生成,仅供参考

图片

预训练成本太高,一些公司快要扛不住了;内卷得越来越厉害,各家厂商都是赔钱赚吆喝……
在最近国内大模型行业暗流涌动的时候,零一万物发布了全新 SOTA 旗舰模型亮相,中国大模型中首度超越 GPT-4o,正面辟谣疯传的流言:绝不放弃预训练,而且做得又快又好。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
超越 GPT-4o,追平 Grok,国内大模型的第一次
在对大模型的测评中,LMSYS Org 发布的 Chatbot Arena,以「盲测」机制著称,是最能反映用户体验的测评标准之一。这一次,零一万物的 Yi-Lightning,排名世界第六,中国第一,稳居世界第一梯队大模型公司之列。
其中,在中文子榜单上,Yi-Lightning 超越了 xAI 发布的 Grok-2-08-13、智谱发布的 GLM-4-Plus 等国内外优质模型,与 o1-mini 等模型并列排名世界第二。
图片
在零一万物召开的线上发布会中,李开复展示了一段不同模型对莎士比亚作品《李尔王》的翻译。Yi-Lightning 在结合上下文、转译微妙的语义方面格外突出,展现了出色的中英互通能力。
而这些,恰恰与之前的风传相反:预训练功不可没。
上周国内的大模型行业传出风声:国内部分模型公司,打算放弃成本高昂的预训练,不再和国外大厂硬拼——零一万物是被猜测是其中打算放弃的公司之一。
「这个事情我们就正式辟谣,这个理解是错误的。」李开复在发布会上说。
他表示,GPT 新发布 o1 之后,的确带来了新灵感,「一年半以前大家觉得大模型最厉害的地方就是预训练,一年以后发现 Post train 也是同样重要,这感谢 OpenAI 点醒我们这一点。」
不过,后训练的重要性变高,不代表要彻底放弃预训练。
图片
在 Yi-Lightning 的训练过程中,采用 Mixture of Experts(MoE)混合专家模型架构,同时改进了单阶段训练,使用了多阶段的训练模式,并且采用了混合注意力机制(Hybrid Attention)。在保持模型性能接近最优的同时,尽可能减少激活参数的数量以降低训推成本,提高推理速度。
「中国的六家大模型公司,只要有够好的人才,想做预训练的决心,融资额跟芯片都不会是问题的。」李开复说。

「很多人问中国的预训练是否落后美国?我们也坦诚中国是落后美国,但有人说落后十年、二十年,今天我们可以用非常精确的数字来算:GPT4o 在 5 月做出来的模型,我们在 10 月的今天已经把它打败了。如果真的算中国赶超美国有多远的距离,至少,零一万物离 OpenAI 的模型,只差五个月。」

在低价面前,一定是对性能的保证
看得出来,在对于模型训练的规划上,零一万物仍然在「模基共建」的战略路径上稳定前进。有所变化的,是对商业化的理解。
自从五个月前发布千亿参数模型 Yi-Large 之后,零一万物相继和阿里云、360、顺丰科技、飞书、钉钉、钛动科技等头部企业达成合作,toB 的路子越走越宽。
SaaS 在国内,还是一直有很大的问题。」李开复解释道,SaaS 自身有很多不同的模式,比如计量,比如订阅,比如分成,都很可持续,但在国内并没有一个普遍被接受的 SaaS 模式。
「首要任务就是要寻找少数能够按使用情况收费的方法,而不是项目定制的方法,能得到比较高利润率的订单再去做。」李开复说。
零一万物对 toB 和 toC 的业务,有了更明确的侧重。针对国内的环境,比如明显遥遥领先的零售、电商行业,这次推出了「AI 2.0」数字人,提供了动作训练、表情生成等能力,并配备 AI 2.0 门店短视频解决方案。
图片
而 toC 的探索则主要放在国外,「我们尝试了一些产品,有些表现很好,有些没有那么好。在国内,也在观察什么时候适合在国内做什么样的产品。」
这是考虑到国内的用户获取的流量成本,已经被一卷再卷得很高,且无法控制流失率。相比之下,获客成本较低而且营利方式更多元成熟。「现在当下最大的理由还是说国外做 to C 的产品,我们变现能力和消耗用户增长的成本算账可以算得过来,以后再关注国内有什么机会可以推出。」
当然,无论是 toB 还是 toC,对于模型的追求都是一以贯之的:性能越强越好,价格越低越好。
目前 Yi-Lightning 已上线 Yi 大模型开放平台,每百万 token 仅需 0.99 元,直逼行业最低价,让人不禁要问,零一万物也来卷价格战了?
「我们还是有利润空间,所以欢迎大家使用,不用担心我们被你用垮了。」李开复解释道,0.99/百万 token 的价格看似卷起来了,但实际应用中,调用量累积下来还是很大,因此需要把价格平衡在一个适当的区间,「不会赔钱卖模型,但也不会赚很多钱,而是在成本线上加一点点小小的利润」,以保证开发者能在用上优秀模型的前提下,再去挑最便宜的。
放眼望去,中国大模型产业进入到了「耐力赛」阶段,如何让大模型赋能千行百业,提升企业新质生产力是一个重要的命题。
这不仅将牵涉到大模型在各个具体行业里的未来发展方向,甚至会影响世界的创新版图。