关于AI,沈向洋院士最新发声!

全文1746字,阅读约需5分钟,帮我划重点

划重点

01国家工程院外籍院士沈向洋在2024IDEA大会上分享了人工智能“三件套”的最新思考,强调技术深度理解的重要性。

02沈向洋表示,从摩尔定律到黄氏定律,算力需求持续增长,推动人工智能行业发展。

03他提到,从GPT到o1,人工智能发生了范式转移,增强学习将成为未来研究方向。

04然而,沈向洋指出,高质量数据短缺将成为大模型发展的瓶颈,需要合成数据来解决。

05IDEA DataMaker技术已提升模型推理准确率25.4%,平均节约成本达85.7%。

以上内容由腾讯混元大模型生成,仅供参考

图片

11月22日,美国国家工程院外籍院士、粤港澳大湾区数字经济研究院创院理事长沈向洋在2024IDEA大会上分享了其对人工智能“三件套”(算力、算法、数据)的最新思考。他表示,在技术大爆发时期开展创新,对技术的深度理解尤为重要。站在商业的视角,新技术快速冲入市场,则意味着技术需要理解需求。技术要在持续不断的反馈和创新中,与市场完成匹配。

从“摩尔定律”到“黄氏定律”:算力需求持续增长

整个计算行业过去四五十年的发展,最重要的一件事情是算力的不断提升。根据英特尔创始人之一戈登·摩尔(Gordon Moor)提出的摩尔定律,当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。或者换句话,性能每2年翻一倍,价格下降一半。

然而过去这十几年随着人工智能的蓬勃发展,特别是深度学习的发展,对算力的需求更加提高。英伟达提出了以其创始人黄仁勋的名字命名的“黄氏定律”,认为GPU(图形处理器)将推动AI性能实现逐年翻倍。

“从以前的百亿级,到现在的千亿级、万亿级,大模型参数规模越来越大,对训练的要求越来越高。要训练这样的模型,数据量要增长,性能要随之提升,对算力的需求也会呈现出平方级的增长。所以我经常讲一句话,那就是‘讲卡伤感情,没卡没感情’。”沈向洋感慨说道。

同时,沈向洋评论称,英伟达是过去十几年,IT行业、人工智能行业最了不起、最成功的一家公司之一,它硬生生把自己从一家做硬件、芯片的乙方公司做成了甲方。“大家对英伟达的未来充满信心,最重要的是对算力的需求。这也解释了为什么过去十年英伟达的市值涨了300倍。”

从GPT到o1:人工智能发生范式转移

沈向洋表示,从2017年开始Transformer架构(一种基于注意力机制的深度学习模型架构)出来,人工智能、深度学习、大模型基本上是沿着Transformer这条线“堆”数据、“堆”算力。GPT4推出之后,尽管GPT5一直没有出来,但OpenAI仍然推出了一些新技术突破的东西,包括多模态GPT-4o。最新的o1(OpenAI最新发布的大语言模型)推理学习能力展现出的人工智能的范式转移非常值得我们认真思考。

GPT系列做的事情是通过预训练来预测“下一个Token(吞吐量)”。技术背景是把所有的数据进行“聪明的”压缩,它可以很快给你答案。只要问一句话就能得到一个结果。而新的范式变革是增强学习,即可以自行改善的“Learning(学习)”,在给出答案之前还有一个后训练、后推理的过程。

实际上,增强学习并不是一个新鲜事物。AlphaGo下围棋就是用这种增强学习的方法打败人类世界冠军的。不过新的增强学习“打法”更为通用。以前做一个系统只能解决一个问题,比如下围棋或者做其他工作。今天o1不仅可以做数据、做编程,还可以做物理、做化学等等。“我觉得接下来这几年,算法沿着SRL(强化学习)这条道路走下去,一定会有令人惊艳的全新突破。”沈向洋表示。

从海量到高质量数据短缺:未来大模型需要合成数据

公开数据显示,GPT3的训练用了2T(即2万亿Token)的数据。GPT4大概用了20T(即20万亿Token)的数据,几乎相当于今天能找到的所有清洗过的互联网数据。GPT5要比GPT4有长足的进步,预测数据量大概会达到200T(即200万亿Token)的规模。

为了进一步阐释大模型训练所需的数据量规模,沈向洋列举了几个例子:1万亿数据相当于500万本书,或者20万张高清照片,亦或是500万篇论文。一个人从小学、中学、大学到念完大学的时候,真正学到的东西相当于1000本,也仅仅是0.00018T的数据。人类历史上所有的书加起来大概也只有21亿Token的数据。

“现在互联网上已经找不到那么多高质量的数据了,人工智能向前发展要造数据、合成数据,这有可能带来大模型创业的下一个百亿美金问题,那就是怎么来合成数据。”沈向洋表示。GPT系列模型的训练依靠的是互联网语料数据,比如文本、图片、音频、视频等多模态数据,o1的训练则需要强逻辑性的数据,很多数据是网上没有的,需要做一些优质的合成数据。

“我们不能盲目的造数据,而是要有理有据,有逻辑关系的存在。要先采集真实数据,建一个语境图谱,然后再合成数据,把这些合成数据放进大模型继续做预训练和推理。”沈向洋介绍说道。据他透露,IDEA DataMaker(数据合成平台)知识驱动大模型数据合成技术已经可以将模型推理准确率提升25.4%以上,平均节约成本达85.7%。同时,IDEA大模型合成数据加密训练技术可以打破数据孤岛,助力私域数据的安全流通。相较于基础模型,该技术可将大模型专业推理能力提升12.8%~24.1%,加密接近无损甚至少量提升。


作者丨宋婧
编辑丨赵晨
美编丨马利亚
监制丨连晓东