沈向洋: 当下AI算力就是生产力。 图源:2024年IDEA大会
作者丨安然
编辑丨叶锦言
出品丨深网·腾讯新闻小满工作室
“讲卡伤感情,没卡没感情”。时隔一年,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在2024年IDEA大会上再次用这句话强调。目前,在AI领域“算力就是生产力”。
沈向洋在现场晒出了2023年全年英伟达H100 GPU出货量统计,其中微软购置量最高,达150K。“谷歌、亚马逊采购量也非常大,现在马上要出来A100,大家奋勇向前做AI拿芯片,过去这段时间是非常重要的。最近马斯克做了10万张H100卡的集群,很快把系统搭起来、跑起来,后面需要能源的消耗也是非常惊人,工程是巨大、很了不起的工作。”沈向洋在现场说。
由于大模型训练对算力需求的迅速提升,往常半导体遵循的摩尔定律(算力每18个月翻一番)已经上升为“黄氏定律”,即每年增长四倍。
“如果每年算力需求增长四倍,十年后的需求将是原来的100万倍。这种指数级增长令人震惊,也解释了为什么英伟达的市值在过去十年里增长了300倍。”沈向洋总结。
沈向洋还在现场透露了一个细节:现在一些大学也面临算力资源的困扰。比如,有老师要求100张卡来做科研,但校长的预算可能只有几千万,无法满足这样的需求。
“我们(IDEA研究院)有1000多张卡,在深圳也是一个小土豪,即使这样,新员工也会问参加IDEA可以给我多少张卡?现在吸引人有些是千卡人才,有些是百卡人才,真了不起应该是万卡人才。”沈向洋笑称。
沈向洋是AI领域的老兵,现任IDEA研究院创院理事长、香港科技大学校董会主席。在此之前,沈向洋是微软公司原全球执行副总裁。他曾负责微软人工智能及微软研究事业部。
自2022年起,IDEA团队从目标检测出发,打造精准度、通用性、泛化能力兼优的DINO系列视觉大模型。
本次大会发布了该系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,实现开放世界(Open-world)目标检测。无需用户提示,直接检测万物。
与此同时,IDEA团队还推出行业平台架构,通过一个大模型基座,结合通用识别技术,让模型不需重新训练,就可边用边学,支撑多种多样的B端应用需求。
在发布会上,IDEA团队还分享了正在进行的AI助盲应用研究。
“现在网上已经没有数据了”
大模型能力的涌现,离不开互联网时代的海量数据养料积累。如今,数据存量告急,引发业界对合成数据的重视。
沈向洋解释,随着GPT系列模型的不断升级,对数据的需求呈指数级增长。例如,GPT3使用了2T的数据,GPT4使用了12T到20T的数据。预计GPT5将需要200T的数据,但互联网上已经很难找到如此大规模的高质量数据。
图片来源:2024年IDEA大会
“现在互联网上已经找不到那么多高质量的数据了,人工智能向前发展要造数据、合成数据,这有可能带来大模型创业的下一个百亿美金问题,那就是怎么来合成数据。”沈向洋表示。GPT系列模型的训练依靠的是互联网语料数据,比如文本、图片、音频、视频等多模态数据,o1的训练则需要强逻辑性的数据,很多数据是网上没有的,需要做一些优质的合成数据。
沈向洋在现场还通过具体的例子和数据,强调了合成数据和私域数据安全在大模型发展中的重要性。
为此,IDEA研究院正在研究如何生成合成数据,以满足未来大模型的训练需求。
在这个方向上,IDEA团队自研了语境图谱技术,解决过往文本数据合成方案的多样性匮乏等问题。该技术为合成数据引入“指导手册”,以图谱为纲,指导用于合成的语境采样。
现实中,许多企业和机构拥有大量的私域数据,但由于隐私和安全问题,不愿意将其公开共享。为此,IDEA研究院开发了IDEA Data Maker,这是一个能够生成合成数据的工具。通过合成数据,可以在不泄露原始数据的情况下,生成高质量的训练数据。
沈向洋解释,IDEA Data Maker不仅可以生成文本数据,还可以生成图像、视频等多种类型的数据。这些数据可以用来构建语境图谱,生成新的语料,满足不同场景的需求。
实验结果显示,IDEA团队的方案能持续为大模型带来能力提升,表现超过目前的最佳实践(SOTA);从token消耗来看,平均节约成本85.7%。目前,该技术内测平台已开放,通过API提供服务。
在拓展新前沿的同时,大模型价值创造也在进行时。大会上,IDEA研究院秀出多个垂类行业应用落地进展,包括:学术大模型和AI科研神器ReadPaper、营销创作大模型,以及面向经济与金融领域的经济大模型、运筹决策大模型、投资大模型。
ChatGPT的成功是TMF模式的成功
沈向洋总结,ChatGPT的出现令大家非常震撼。它原本只是一个技术演示,但在推出后的两个月内,迅速吸引了全球1亿用户,成为了一个了不起的现象。
“传统的产品开发强调PMF(Product-Market Fit,产品与市场的结合),即产品必须符合市场需求。然而,ChatGPT的成功展示了另一种模式——TMF(Technology-Market Fit,技术与市场的结合)。当技术达到一定水平时,可以直接满足市场需求,实现快速爆发。”沈向洋说。
沈向洋还在现场透露了一个细节,“这些体会源于,我在清华上了一堂由美团的王慧文主讲的关于PMF的课程,并多次请教他,从中获得了深刻的见解。”
“ChatGPT的成功证明了当技术达到足够高的水平时,可以直接跳过PMF阶段,实现TMF。这给了IDEA研究院很大的启发,我们也在追求极致的技术,希望能通过技术创新直接满足市场需求。”沈向洋补充说。
沈向洋还在现场表达了对编程语言发展现状和未来机会的看法。
“全世界有那么多的编程语言,小语言、大语言、中语言,基本上没有一个语言真正被大家所用的是由中国人发明、中国人创造,这种现象我们是有机会可以改变的。”沈向洋说。
纵观编程语言的发展历史,确实很少有由中国人发明并广泛使用的编程语言。
Fortran是世界上第一个高级编程语言,由约翰·巴克斯开发,1956年开始使用。Fortran主要用于科学计算,尤其是在IBM大型机上。
C语言1972年诞生,与Unix操作系统紧密相关,推动了操作系统的普及和发展。Java1995年诞生,随着互联网的兴起,Java因其在Web服务器上的广泛应用而成为现象级语言。
Python1991年诞生,近十几年来,Python因其在科学计算和云计算平台上的便利性,成为非常流行的语言,尤其受到年轻一代开发者的喜爱。
在大模型时代,是否会出现新的现象级编程语言?这是一个值得探讨的问题。
GitHub Copilot的创始人Alex Graveley曾表示,AI编程还没有形成新的编程语言。“马上有人回答,事实上已经有一个语言叫做MoonBit已经非常像你想要的AI时代的编程语言。”沈向洋说。
MoonBit是IDEA推动软件和编程语言的工作,据公开资料显示,MoonBit旨在降低开发者的门槛,提高开发效率,支持多后端和跨平台,特别适合AI和云计算环境。