AGI还有多远?

内容简介  

谢知乎邀请,聊聊老话题:AGI


知乎专题:

我们现在距离实现真正的人工智能还有几步?哪些方面要进一步突破?
地址:https://www.zhihu.com/question/8585154703/answer/70763621147



(0)AI威胁论


事件回顾

2016年10月19日,斯蒂芬·霍金 (Stephen Hawking) 在剑桥大学再次重申:发展全面人工智能可能导致人类毁灭。正因为 AI 有着巨大的潜力,因此必须研究如何在利用其优势的同时避免落入潜在的危险中。

图片

2023年3月29日,千位大佬的联名信:暂停超强AI训练六个月。图灵三巨头中,一位带头签名,一位强烈反对,还有一位不发一言。Bengio签名、Hinton沉默(站队Ilya)、LeCun反对

图片

2023年11月,OpenAI“政变”背后,以Ilya为代表的“对齐派”和Sam为代表的“加速派”打得不可开交

图片

2024年5月15日,Ilya出局

2024年6月20日,Ilya创立公司SSI,继续“对齐”人类价值观

这一系列事件让人不禁好奇:他们到底在争什么?AI真能威胁人类吗?

先想想:真正的人工智能是指什么?AGI吗?还是生物智能?

衍生出来的子问题:

  • (1)什么是AGI

  • (2)LLM是AGI吗

  • (3)怎么实现AGI?


下面逐个陈述,个人意见,仅供参考,如果新观点、资讯,欢迎贡献!

(1)什么是AGI

刨祖坟,找下AGI定义

图片

人工智能按实现阶段可分为三类:

①狭义人工智能 (ANI):Narrow AI,现有AI技术达到的状态,也称弱人工智能,此处的弱不是指能力,而是相对于人类智能。尽管可执行任务可能由高度复杂的算法和神经网络实现,依然是ANI,因为是单一目标驱动。

典型案例:人脸识别、搜索、自动驾驶。

②通用人工智能 (AGI):可成功执行人类才能完成的智力型任务。与ANI一样,AGI 可以从经验中学习,发现和预测模式,但是 AGI 智能水平更胜一筹。AGI 从先前数据或算法未解决的各种任务中推断出这些知识。

典型案例:Summit 超级计算机,全球为数不多的可以演示 AGI 的超级计算机之一。每秒可以执行 200 千万亿次计算,而人类完成这些计算需要十亿年。

③超人工智能 (ASI):ASI 拥有完全自我意识。除了简单模仿、理解人类行为,还能从根本上掌握人类行为。

ASI 不仅具备人类特质,还拥有远胜于人类的处理能力和分析能力,ASI呈现了一个反乌托邦式的科幻未来,到那时人类将被逐渐淘汰出局。

那么,什么是AGI:Artificial GeneralIntelligence 通用人工智能

OpenAI的定义:AI systems that aregenerally smarter than humans

表述模糊,不明所以。

【2023-11-11】谷歌DeepMind在论文(Levels of AGI)里对AGI做出了详细划分,提炼出六个原则:

  • 关注模型能力,而不是过程。

  • 关注通用性性能

  • 关注认知元认知任务。

  • 关注潜能,而不是部署。

  • 关注生态的有效性。

  • 关注AGI 发展道路,而不是只关心终点。

基于这些原则,DeepMind 从性能和通用性两个维度提出了「AGI 等级(Levels of AGI)」。

  • Level 0:无 AI(No AI),如 Amazon Mechanical Turk;

  • Level 1:涌现(Emerging),与不熟练的人类相当或比之更好, 如 ChatGPT、Bard、Llama 2 ;

  • Level 2:有能力(Competent),达到 50% 的人类水平,广泛任务上还没实现;

  • Level 3:专家(Expert),到达 90% 的人类水平,广泛任务上还没实现, Imagen、Dall-E 2 在特定任务上已经实现;

  • Level 4:大师(Virtuoso) ,达到 99% 的人类水平,在广泛任务上还没实现,Deep Blue 、AlphaGo 在特定任务上已经实现;

  • Level 5:超人类(Superhuman),胜过 100% 人类,广泛任务上还没实现,在一些任务范围内,AlphaFold 、AlphaZero 、 StockFish 已经实现。

详见论文表格:

图片

各有各的观点,都有一定道理,暂无确定答案。

按照Google定义,知名产品/技术按照这个 AGI 等级划分:

  • ChatGPT 被划分为L1 Emerging AGI

  • Imagen 是L3 Expert Narrow AI

  • AlphaGo 被划分为L4 Virtuouso Narrow AI


Google认为LLM部分是AGI。

再看看不一样的观点

① 

不少人相信GPT大模型不只通过图灵测试,还达到了AGI。部分专家也赞同。

【2023-10-18】MIT的Tegmark认为LLM有世界模型,是AGI.

杨植麟(TransformerXL作者)也赞成:

  • “Next token prediction(预测下一个字段)是唯一的问题。”

  • “只要一条道走到黑,就能实现通用泛化的智能。”

② 不是

把AGI作为公司使命的OpenAI在官网文章(Planning for AGI and beyond)里提到:

  • Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all ofhumanity.

  • If AGI is successfully created, this technology could help us elevate humanity by increasing abundance, turbocharging the global economy, and aiding in the discovery of new scientific knowledge that changes the limits ofpossibility


【2023-10-10】Sam Altman表示:“距离AGI之路都还有很远”,无论是GPT-5还是GPT-6,都还远远不及AGI。

甚至就“像人”这一条,现阶段就还没AI Chatbot能做到:即使背后用上了最前沿的AI技术,也没让我感觉到在和一个“人”聊天。

真正的AGI将能够掌握“自行推理”,即随着时间推移发展出新知识。能根据物理学已有知识,写论文、做实验的AI,才能够得上AGI门槛。

【2024-7-14】OpenAI CEO奥特曼给AI的发展进程划分了五个阶段。

  • 第一级(Level 1):聊天机器人,能使用对话语言的AI。

  • 第二级(Level 2):推理者,能解决人类级别问题的AI。

  • 第三级(Level 3):代理,能采取行动的AI系统。

  • 第四级(Level 4):创新者,能辅助发明的AI。

  • 第五级(Level 5):组织者,能够完成组织工作的AI。

个人觉得,通常意义上的AGI是指机器具备生物一样的认知智能,自我意识自学习,不只是掌握海量知识、下棋、做数学题等单一任务。

(3)如何实现AGI

人类进化史四个阶段:

  • 南方古猿(420万-100万年前);

  • 能人(200万-150万年前);

  • 直立人(200万-20万年前);

  • 智人(20万年-1万年前)。

南方古猿是一个已经灭绝的类人猿属,其中物种有七八种,南方古猿因在埃塞俄比亚被发现而得名,南方古猿有一个著名的标本叫露西,被称为“人类的祖母”。

图片

只是进化3000万年的人类,到现在还没搞清楚大脑工作原理。

所有脊椎动物 (动物骨头) 都有一个大脑,由以下部分组成︰

  • 脑干︰ 脊髓、 脑桥 组成。脑干控制自动功能,如血压和心脏的跳动、 边缘运动和内脏的功能,像消化或排尿。

  • 小脑: 它是第二大的器官,它主要涉及控制姿势和运动。

  • 下丘脑垂体,负责内脏的功能,如调节体温和基本行为,喜欢吃,性反应,快乐,侵略…

  • 大脑,由大脑皮质 (大脑半球和脑裂片) 和一些深层结构,喜欢基底神经节、 杏仁核和海马体。它是整合所有信息收集到的我们的感觉器官和组织反应。它控制运动功能、 情绪和所有的高级认知功能︰ 推理、 表达情感、 记忆、 学习…

图片


人类大脑皮质是所有动物中最复杂的。它不仅更大,而且会卷起和折叠在本身形成凹槽和折痕,使其有典型的褶皱的外观。

人类大脑重约 1.4-1.5 公斤 (3.3 磅),女性有量约 1130 cc (69 ci) 而男性有 1260 cc (77 ci)。

它被称为脑膜的膜所覆盖,在被颅骨撞击时可以保护颅骨。

甚至更多的保护,大脑”漂浮”在脑脊液中。

据估计,人类的大脑由超过 1000 亿个神经元细胞,主要是神经胶质细胞和神经元。

图片

著名的“三重脑”理论将大脑功能进行初步划分:

  • 年代久远的本能脑

  • 相对古老的情绪脑

  • 非常年轻的理智脑


图片

进化史:

①约3.6亿年前,为了适应陆地生活,爬行动物演化出了最初的“本能脑”。本能脑的结构很简单,只有一个原始的反射模块,可以让爬行动物对环境快速做出本能反应。

② 到了大约2亿年前,哺乳动物为了更好地适应环境,不仅让体温保持恒定,还进化出了情绪。相应的,哺乳动物的大脑里也发展出一个独特的情感区域(边缘系统),脑科学家称之为“情绪脑”。

③ 直到距今约250万年前,人类才在大脑的前额区域进化出了“新皮层”。这个新皮层直到7万~20万年前才真正成形,新的脑区称为“理智脑” 。

现在大模型背后的人工神经网络也只是一种简单模拟而已,远不如真实的大脑。

《思考快与慢》里提到 著名的system1(感性思考) and system2 (理性思考),AI圈子广为流传。

Agent里使用反思(ReAct)慢思考就让结果大幅提升,让人见识到LLM的巨大潜力。

可是,跟大脑相比,还是不值一提:

  • 情绪是怎么产生的?

  • 功耗低:处理问题时,人脑功耗比GPU千卡集群小得多的多了,依旧能从纷繁复杂的物理世界中快速获取信息

  • 意识如何产生:LLM有意识吗?生物是如何产生意识的?

  • 自学习:跟环境交互,学习技能,提升认知


实现AI一般有三条路径:

  • 1)神经科学:自底向上,模仿生物;(脑科学)

  • 2)认知科学:自顶向下,构建认知框架;(存在感低)

  • 3)计算科学:模拟神经活动(例如DNN)。(计算机,AI)

图片

最理想的研究状态:

  • 首先由神经科学发现大脑的一些信息加工的机制;

  • 然后用认知科学的方法对这种机制进行建模;

  • 在此模型之上,计算科学抽象出算法,从而获得一套解决问题的方案。

将认知神经科学与人工智能结合,分别从生物视觉的硬件层、模型层、算法层进行研究。

经过时间洗礼后,留下两条主流路线

  • 计算科学:人工神经网络

  • 脑科学:脑观测成果启发人工智能理论应该还大有可为

脑科学研究之路绝非易事,平均一次发现间隔几十年。

图片

人类如何思考、机器如何思考这两个问题成为科学家关注焦点。诺贝尔奖激励脑科学不断前进,脑科学带动计算科学里的人工智能不断突破,图领奖在此等候。

图片

随着大脑神经元工作原理的新发现不间断蹦出来,不同类型的人工神经网络也随之诞生。

  • 1890年,神经元激活状态 →1958年,感知机模型

  • 1962年,猫脑感受野→ 1990年,卷积神经网络

  • 1989年,脑基底神经节→2004年,类脑强化学习

  • 1981年,猴脑下颌皮质→2007年,HMAX模型

  • 2002年,脑皮层微柱结构→2017年,胶囊网络


图片

近年来,脑科学人工智能是两条平行线,互不相交。

未来需要在两者之间构建一个桥梁,即认知计算

图片

认知计算是通过先进神经技术揭示脑结构、脑功能与智能产生的多层次关联与多模态映射机制,从而建立认知模型与类脑智能体系的科学

信息参考【2020-9-5】戴琼海:深度学习遭遇瓶颈,全脑观测启发下一代AI算法

深度学习不行

深度学习这么强,实现AGI没问题吧?不一定。

深度学习为什么不是正途?不管技术有多花哨,本质上是贝叶斯归纳模型。只要是归纳模型就必须经受休谟的质疑

  • 如何保证过去成立的现象未来也成立?


很多人认为贝叶斯方法克服了休谟的质疑 —— 错误

贝叶斯方法只是利用话术回避了休谟的质疑。

只要将休谟的质疑改成 “如何保证过去的事件的概率分布在未来也成立”,那么问题又回来了。

休谟问题把当今机器学习方向一板砖直接拍死:怎么保证数据样本间过去成立的关系未来一定成立?

不管算法有多漂亮,计算的结构怎么变化,破不了这个问题,其他一切都挽救不了这些机器学习模型。

有人会问:人也不能保证过去成立的未来一定成立啊?

的确,但人超越归纳法的地方:有能力更加综合的考虑问题,比如,虽然谁也没见过太阳毁灭,但是可以预测太阳未来一定会毁灭。要走向真正的人工智能,搞清楚人是怎么进行这个综合的思考过程的至关重要。

二十年内,如果AGI有本质突破,那么必然满足以下条件:

  • 1)一定是符号系统

  • 2)这个系统的符号能表达自身的状态和变化

  • 3)自编程,这个自编程是经验的而不是逻辑的。

GPT也不行

对于GPT系列的爆火,有疯狂崇拜,有人积极跟进,有人则冷眼相待。

举世皆浊我独清,众人皆醉我独醒。

不管形势如何,总有些勇敢的少数派公开唱反调,值得敬佩。

纽约大学教授马库斯赞同说:

  • GPT-5不会是AGI。几乎可以肯定,GPT模型不是AGI。今天使用的方法(梯度下降)优化的任何模型完全不可能成为AGI。即将问世的GPT模型肯定会改变世界,但过度炒作是疯狂的。

2023年3月24日,图领奖获得者Yann LeCun 一贯犀利,直言不讳地指出:

  • 「Machine Learning sucks!」机器学习行不通 

  • 「Auto-Regressive Generative Models Suck!」,自回归语言模型GPT系列也行不通,包括ChatGPT、GPT-4,离真正的AGI还很远。 

  • GPT-4并未达到人类智能,年轻人花20h练车就掌握了开车技能,即便有专业司机的海量训练数据、高级传感器的辅助,L5级别自动驾驶到现在还没实现

图片

GPT这类自回归模型有天生缺陷,无法兼顾事实、不可控:

  • 序列化生成过程将问题解空间一步步缩小,陷入局部深井,错误指数级别累积。

语出惊人,颇有一股侠者风范。

除了GPT,他还给机器学习几乎所有方向判了死刑。

想用监督学习、强化学习和自监督学习实现AGI?不可能。

与人、动物相比,机器学习

  • (1)监督学习需要大量标注样本

  • (2)强化学习需要大量试错样本

  • (3)自监督学习需要大量非标注样本

而当前大部分基于机器学习的AI系统常常出现愚蠢错误,不会推理、规划

反观,动物或人:

  • (1)快速学习新任务

  • (2)理解环境运行逻辑

  • (3)推理、规划

人和动物具备常识,而机器表现得很肤浅

【2024-5-28】李飞飞 和 Etchemendy(曾任斯坦福大学教务长)在《时代(Time)》上刊载新文章《No, Today’s AI Isn’t Sentient. Here’s How We Know

明确指出当前技术路线无法制造有感知能力的AI

该文得到了LeCun支持。

世界模型

那么,AGI出路在哪儿?Yann Lecun回答:「世界模型」

构建一个能够进行推理和规划的认知架构,由 6 个独立模块组成:

  • (1)配置器(Configurator)模块;

  • (2)感知模块(Perception module);

  • (3)世界模型(World model);

  • (4)成本模块(Cost module);

  • (5)actor 模块;

  • (6)短期记忆模块(Short-term memory module)。

图片

详见:《A path towards autonomous machine intelligence》

因此,当前生成式AI尽管出尽风头,但还只是刚步入AGI门槛,并未真正站稳…

2017年,朱松纯讲过《一只乌鸦给我们的启示》:体型大小都差不多的乌鸦鹦鹉

鹦鹉有很强的语言模仿能力,一个短句,多说几遍,它就能重复,类似于当前的由数据驱动的聊天机器人。

鹦鹉和聊天机器人都能说话,但都不明白语境和语义,不能把说的话对应到物理世界和社会的物体、场景、人物,不符合因果与逻辑。

而乌鸦远比鹦鹉聪明,不仅会制造工具,还懂得各种物理的常识和人的活动的社会常识。

研究人员在日本发现一只野生乌鸦,没人管,没人教。靠自己观察、感知、认知、学习、推理、执行,完全自主生活。

图片

乌鸦面临第一个任务是寻找食物。

找到坚果还不能吃,需要砸碎,可是这个任务超出它的物理动作的能力。其它动物(如大猩猩)会使用工具,找几块石头,一块大的垫在底下,一块中等的拿在手上来砸。

乌鸦怎么试都不行,它把坚果从天上往下抛,发现解决不了这个任务。这个过程中,发现一个诀窍:把果子放到路上让车轧过去(图b),“鸟机交互”。

后来进一步发现,虽然坚果被轧碎了,但到路中间去吃很危险。车水马龙路,随时就game over了。

这个过程没有大数据训练,也没有所谓监督学习,乌鸦的生命没有第二次机会。

乌鸦头有多大?不到人脑的1%大小。人脑功耗大约是10-25瓦,它就只有0.1-0.2瓦,就实现了自主学习,根本不需要核动力发电、大模型。

所以说,监督学习和强化学习都行不通。

然后,它又开始观察了,图c。发现在靠近红绿灯的路口,车子和人有时候停下了。这时必须领悟出红绿灯、斑马线、行人指示灯、车子停、人流停这之间复杂的因果链。甚至,哪个灯在哪个方向管用、对什么对象管用。

搞清楚之后,乌鸦就选择了一根正好在斑马线上方的一根电线蹲下来(图d)。也许它观察和学习的是别的地点,没有这些蹲点的条件。它必须相信,同样的因果关系可以迁移当前的地点。

当前很多机器学习方法是做不到。比如

一些增强学习方法,让机器人抓取一些固定物体,如积木玩具,换一换位置都不行;

打游戏的人工智能算法,换一换画面,又得重新开始学习。

它把坚果抛到斑马线上,等车子轧过去,然后等到行人灯亮了(图e)。这时车子都停在斑马线外面,它终于可以从容不迫地走过去,吃到了地上的果肉。

乌鸦多聪明,这才是真正的智能!

乌鸦的启示:

  • 其一、完全自主智能。感知、认知、推理、学习和执行。世界上一批顶级的科学家都解决不了的问题,乌鸦证明了这个解存在。

  • 其二、大数据非必须。乌鸦有几百万人工标注好的训练数据给它学习吗?没有,它自己把这个事通过少量数据想清楚了,没人教它。

  • 其三、海量计算非必须。乌鸦头有多大?不到人脑的1%大小。人脑功耗大约是10-25瓦,乌鸦只有0.1-0.2瓦,根本不需要核动力发电。这给硬件芯片设计者提出了挑战和思路。

我们要寻找“乌鸦”模式的智能,而不是“鹦鹉”模式的智能。当然,不能否认,“鹦鹉”模式的智能在某些垂直应用有效。

AI研究者应该寻求乌鸦智能,而不是鹦鹉智能。

  • 当前的人工智能应该研究乌鸦智能(小数据、大任务) 而不是鹦鹉智能(大数据、小任务)

完全的自主智能:感知、认知、推理、学习和执行里,目前的LLM/LVM

  • 侧重感知:从文本,到声音、图像、视频,甚至脑电波,逐步完善,但模型规模不断扩大

  • 认知:Agent里的memory承担了短期记忆,RAG扮演长期记忆,自我意识(system prompt不够)仍然不稳定,如何具备真正的世界模型?

  • 推理:o1/o3正在补齐推理短板,是个好方向,但只是浅层推理

  • 学习能力:依然是海量数据训练,目前还不具备自学习能力

  • 执行:工具简单调用没问题,组合使用有难度,Agent/具身智能的发展,会加速提升执行能力

当前的大模型应该转向小型化、推理、自学习方向,引入脑科学的成就,或许能缩小生物大脑的差距。

【2024-5-13】纽约州立大学的一名教授Brenden Lake,让自己不到2岁女儿头戴类似GoPro相机,收集数据

  • 过去的11个月里,Lake每周都会让女儿戴一个小时的相机,以她的角度记录玩耍时的视频。

  • 通过Luna相机拍摄的视频,Lake希望通过使用孩子接触到的相同数据,来训练模型。

  • 模型获取了儿童日常经历中存在许多的指涉映射,因而能够零样本地概括新的视觉指涉,并且调整其中的视觉和语言概念系统。

图片

如果Lake团队的实验成功,或许全世界共同面临的LLM数据荒,就有解了

另外,人工神经网络中,除了FFN/Attention组成的transformer结构,就没有别的吗?论信息传递效率,脉冲神经网络更好。

按照唯物主义观,碳基、硅基都是物质,既然碳基可以,硅基也可以。

只是,AGI之路,道阻,且长。

图片




附录