由北京图书大厦、北京大学出版社主办,北大博雅讲坛、文汇讲堂工作室承办的北大博雅讲坛624期“Sora带来的超人类时空感知暨《对话时代》新书研讨讲座(北京专场)”现场
【导读】12月初,由“AI教母”之称的斯坦福大学李飞飞在今年4月组建的World Labs发布首个空间智能项目成果,让人咋舌:仅凭一张图,就能生成一个3D游戏世界的AI系统。与生成式大模型预测的是像素相比,更进一步的是,AI系统可以预测3D场景。这就涉及李飞飞的首个创业公司World Labs的方向——空间智能,即视觉化为洞察,看见成为理解,理解导致行动。该公司3个月就突破10亿美元估值。李飞飞近日也宣称,理解世界运作的方式是AI的下一步,我们需要从大语言模型转向大世界模型。
空间智能,通俗来讲,就是AI感受到并创造出的三维空间。
在文汇讲堂第八本新书《对话时代——铸造新质生产力的强国之路》7月写就的长篇序言里,作者朱嘉明教授就在“不断加速推进的人工智能前沿”一节里详尽介绍了这个领域的新发展。他认为,基于AI大模型的空间智能,可引导人类进入“一种全新的存在”,而具身智能可能是这里的“原住民”。
今年10月底,在京沪两地展开了本书研讨讲座,在北京图书大厦举办的讲座主题就是空间智能。由清博智能副总裁、创新院院长李祖希主持,横琴粤澳深度合作区数链数字金融研究院学术与技术委员会主席朱嘉明、北京智源人工智能研究院战略研究中心负责人倪贤豪、中山大学天文与空间科学研究院教授兼著名科普作家李淼,展开了一场非常前沿也很专业又有丰富视角的对话讲座。
现分三篇整理后予以分享。两篇为内容,第三篇为互动。此为内容上。
《对话时代》为文汇讲堂第八本主题书,由北大出版社出版,自9月上市以来已销3000余册
概念的理解:第三空间?空间智能?
李祖希:今天我们把Sora新一代人工智能技术、AI空间智能、第三种存在合在一起讨论,目的是帮助大家去畅想已经开始并马上会大放异彩的人工智能时代,人类将会得到哪些技术、哪些强大的赋能,以及对于我们生活的空间,会有哪些新的可能性。
首先要界定一下概念,朱嘉明老师提出,“AI空间”可能会成为人工智能时代一种新的存在,在他看来是“第三种存在”,这个观点也得到了斯坦福大学知名学者李飞飞的佐证。先听听朱嘉明老师的阐述。
*ChatGPT诞生演变出清晰的“第三种存在”
朱嘉明:我认为,人工智能代表了第三种存在,成为与物理的或者物质存在、以及精神的存在所平行的一种存在。第三种存在的特点相当明显,它既是物理的、物质的,又是精神的和思想的;既是科学的和理论的,也是技术的;即是社会的,也是个体的;即是创造,也是创新。具体地说:
第一种存在是人们熟知的物理性的和物质性的存在。这样的存在首先是一种自然存在,例如海洋,山脉和星球,还有化学元素、原子结构,等等。这样的物理性存在,也是有规律的,牛顿经典物理学就是对物质世界的一种归纳,爱因斯坦的相对论也是对物理世界的一种认知系统。
第二种存在是精神的存在。这种存在可以具体化为意识的、思想的、心理的和情感的存在。宗教和哲学,以及各类人文科学,都是对精神存在的研究和概括。
哲学上反复讲唯物主义和唯心主义,核心就是如何认识第一种存在和第二种存在的关系。
朱嘉明在视频中阐释第三种存在
至于第三种存在,就是我本人所总结的,因为人工智能导致的存在模式。以ChatGPT大模型为分水岭,人们可以构建同时包括物质和精神存在的存在。例如,人工智能创造的多媒态,可以超越人类自身的局限,实现多维的状态的物理世界,或者人工智能空间。不仅如此,今天世界已到达了这样一个阶段:第一种存在、第二种存在,开始需要通过人工智能才能得以更为充分地展现和证明。
总之,第三种存在是一个需要进一步证明的理论框架,现在并没有被人工智能界或者哲学界普遍接受。但是,在现实生活中,一个清晰的第三种存在正在急剧的发育和演进,逼迫人类同时要面对三种存在。
*“第三种存在”不需要人去感知,是一种潜力学习
李祖希:对于“AI空间”这样一个全新的概念,朱老师阐释了其理论和背景,但大家还是会有一些疑问——这样一个概念意味着什么?它对应的我们生活中的哪些事物?请李淼老师从科普视角加以阐释。
李淼:我抛开一个物理学家身份来理解它。第一种存在遵循着具体的物理学规律以及更加复杂的化学规律、生物学规律等等,也就是相对客观的规律。第二种存在,目前为止只有我们人类才能感知到,因为它涉及意识,我们并不知道动物是否有意识。看起来独立其实并不独立,它事关我们的大脑,大脑里有灰质、神经网络,但神经网络工作后如何呈现意识,目前我们并不知道,也是一个难题。小孩子2岁时会与镜子里的自己对话,我儿子就拿棍子打镜子,但到了4岁就知道了。再延伸一些,我们有社会的概念,比如这里的书必须有人来感知它,必须有文字来描绘。同样,像文化娱乐,比如电影等,必须用我们人来感知。
李淼做通俗化解释
朱老师提出来第三种存在这个概念,它不需要人去感知,也有别于物质世界,有别于我们的存在,首先它是潜力学习,深度神经网络是模仿人类,用大量的材料来学习不断进化产生的新的形式,这种形式是否意识我们目前还无法判断,所以把它称作“第三种存在”。
*具有三维特性,容纳很多虚拟变异体,与具身智能契合
李祖希:我听懂了一些,AI相对于我们来说,有可能自带自我意识,它不一定能分辨出来镜子里面是否为自我,但它无论是处理速度还是很多计算单元的并联,都不依靠我们碳机生命的身体,因此是一种新的存在方式。请教一下倪贤豪,作为人工智能研究和研发的重要团队,您从AI技术视角上如何看待这样一个新概念?
倪贤豪:在AI的视角上去看,与最近非常火的具身智能密切相关,可以理解为如果脱离了人类这样的形体,认知是不一样的。比如我们的形体是一个蝙蝠,我们对于世界上的认知就会以蝙蝠的感官、形体去产生;如果我们的形体是一辆汽车,对于整个世界的认知也会变得不一样。因此,具身机器人、人形机器人某种程度上契合了所谓的第三种存在。
这第三种存在,和李飞飞老师的“空间智能”可以互相佐证。空间智能,可以理解为机器在三维空间当中的一个感知、理解和交互的能力,它在二维世界的基础上增加了一个深度信息,变成三维而极具立体。这样所谓的空间智能或AI空间,最后呈现出来的方式可能是两个虚拟的智能体的交互,也可能是成为机器人的“大小脑”,进而实现的实体交互。
再来看今天从Sora到AI空间再到超人类时空感知这样的一个话题,通过Sora去生成很多虚拟的形象,或者说一些新事物,然后空间智能在此基础上变得更加的三维化,最后都朝向更好去生成虚拟世界或者现实增强(AR)。整个过程可能是我们目前对于空间智能或者AI空间的认知。
李飞飞提出空间智能,强调视觉的重要性
李祖希:您的解析让我想到一个观点,现在有一些科学家也认为新一代人工智能不光是一个工具,让它来生产一些包括文字、图片的内容,包括今天我们讨论Sora视频,大家更愿意把它当作一个虚拟世界的变异体,它未来能创造更多有深度的画面,容纳很多智能体在里面活动,这些智能体可能是与在座各位有关,也可能是和人类完全无关的独立智能,即硅基智能。
AI空间特点:通向世界模型
李祖希:三种空间相比较,AI空间有哪些特别之处?先听听李淼老师的观点。
*人脑或是小型的量子计算的模式且低功耗
李淼:我相信精神肯定基于物质基础,无论我们的意识产生多么复杂,尽管物理世界的绝大多数已解决的问题脑科学几乎都没有解决。而人工智能更加偏物理,它用电路用芯片等等,深度神经网络只不过是简化地对人脑进行了模拟而已,通过“大力出奇迹”的方式来做到大容量。
所以从某种意义上说,它们的机理既相同又不同。人类虽也要经过训练,但他有遗传,很多语法是一出生就在我们大脑里面的,而大模型必须经过很多语料的训练,可以比人类快,但消耗的物料和能量远远大于人类。
李祖希:AI有胜于人类的特点,但有些科学家也提到了人类大脑可能是一种小型的量子计算的模式,且功耗很低。听听倪贤豪的看法。
*理想的“第三种存在”既契合牛顿定律又契合量子规律
倪贤豪分析理想的空间智能
倪贤豪:提到功耗,我们可以理解为人工智能其实有对人类思维过程或者行为的功能模拟,也有仿照人脑结构机制的结构模拟。目前的大模型用了很多计算机芯片连在一起,去实现一个深度神经网络或者建一个大模型,实现一个能力的涌现,去逼近人类的水平。在结构模拟方向,比如目前来说离落地还比较远的类脑智能,它的整个结构上会比较逼近人类,就能够实现比较好的低功耗的运行。未来几年类脑的结构模拟有望落地。这是第一种区别。
第二种区别,对于第三种存在来说,本质上会看到有人类和智能体或者机器人的交互,也会有智能体之间的交互,每种交互产生出来的数据或者信息,它的数据质量和量级是不太一样的。
最后一个区别,第三种存在有一个渐进的过程,从Sora年初的视频生成,到现在的AI空间智能,是从2D到3D的过程,视频生成这个领域,目前国内也有不少团队在朝3D生成、空间智能这个方向走。
要完全到真正成熟意义上的让人类与机器人或者说智能体在其中自由交互的存在,还是需要技术的继续提升。以空间智能为例,目前还更多是在进行理论探讨,在实证这一侧才刚开始去做各种研究,出来了一些初步成果,明年我们会看到更多实际成果的落地。Sora今年年初出来后,到现在已经有相当多的团队,包括国内的团队在做。
这样的生成,我们希望它既能够符合人类世界宏观的牛顿定律,也契合微观的量子力学规律。我们发现,现在大模型生成的内容可能不符合物理规律,这是第三种存在向现实逼近过程中一个比较大的技术问题。
如果生成的2D和3D视频、图片等内容符合物理规律,这样的第三种存在就相对来说比较成熟,而且这种技术同时能够应用到虚拟空间,比如说用机器人的形态跟我们做了直接物理意义上的交互,通常我们会把它叫作“世界模型”、“具身世界模型”。所以,从Sora到空间智能再到世界模型需要去持续加强的,目前有通过比如对生成式模型的基础架构Transformer、Diffusion做因果式约束做世界模型训练,可以理解为是从多模态往世界模型的尝试。
最后,从远期展望,第三种存在再往后推进,元宇宙是一个交汇的点。
*人类及人类发明的已有工具都受到功能限制,AI不同
李祖希:AI既有有别于人类的自我特点,也呈现了它发展早期的缺陷——现在更多的还是向我们人类学习。AI生成的东西,不光是一个表面的形态,更重要的是它获得了我们的物理规律,或者是其他深层次逻辑,这样的话,它的应用更加可控,更接近我们,有可能未来也会超越我们现在的一些规律和一些现实世界的束缚。这个问题来听听朱嘉明老师的观点。
朱嘉明谈工具的局限性
朱嘉明:人类自身存在各种局限性,其中最大的局限性来自人的生物性。例如,人类没有办法决定其基因传承和突变,包括眼睛在内的人的感官,对真实世界的感受非常有限,没有可能通过眼睛认知纳米级的微观世界,例如夸克、DNA和新冠病毒,以及宇宙级的宏观世界,更没有可能感触到这个世界是被概率论所左右的。这是宏观方面。所以,人类需要借助一些科学工具,包括天文望远镜到显微镜认知这个世界。如今,科学和技术的发展进入瓶颈期,这些科学工具证明也有局限性,所以需要通过人工智能突破极限性挑战。
AI空间与元宇宙、脑机接口
李祖希:延伸讨论一下人工智能和元宇宙两者之间的关系。元宇宙和AI是一个外在系统和内核的区别。元宇宙最新的发展是Meta最近推出了新眼镜,还有摄像头,可以帮助您看到眼前的事物,看到人之后告诉你这个人的身份,有哪些背景信息,这一切都显示在眼镜的镜片里面,这一切都是人工智能帮你处理的。这一款设备可能在未来一两年大家就能体验到。所以今天我们站在这个时代的早期,畅想一下未来AI和元宇宙有哪些结合的应用,以及哪些有意思的发展前景和盈利模式。
*AI与元宇宙相互成就,谁更强取决于未来发展
现场三人讨论热烈
倪贤豪:元宇宙有两个呈现方式,一个是完全虚拟的虚拟现实,另一个是在现实中通过眼镜直接看到现实的增强,类似眼镜这样的头显设备是最好的途径,部分或者甚至全部替代了我们的手机,以现实增强的模式去实现元宇宙时代的一个加速逼近,可能很关键。
对于AI在元宇宙中的作用,一是需要通讯,人脑电波特别快,支撑头显设备线需要5G的承载网络;二是需要算力;三是它的经济系统,元宇宙很有可能就像现在的互联网一样,是一个跨国的全球化,要有像朱嘉明老师一直在做的如区块链这样的能够跨国的经济手段或者说技术;四是内容生成,因为元宇宙本质上与我们刚提到的第三种存在、AI空间是能够互相融合的。头显设备、通信载具、经济系统与算力加在一起,有可能两年之后元宇宙又火回来了。
也有可能两三年之后我们去看更微观的东西,比如说对蛋白质结构进行预测,然后基于这个预测去做一些更高效更快速的药物发现,或许在未来的几个月或者说一两年,会发现AI for Science这个方向又会通过AI、通过元宇宙的方式重新发展起来。
AI和元宇宙的关系,本质上还是互相成就,未来会变成一个元宇宙的空间还是一个AI的空间,可能会需要一两年时间再去作一个判断。
李祖希:您给我们的启发就是未来元宇宙的建造和运营的规律和模式都会被AI重塑,从这个角度来说,AI不光是一个工具为我们所用,它也是一种生产力,它自己会有一种全新的工作方式,无论是提升我们现实世界的品质,还是要打造一个全新的元宇宙的虚拟世界,这个观点非常重要。
李祖希主持并点评学者发言
*大脑在电脑上重组后接入,还是独立的意识体吗?
李祖希:我们再讨论更有意思更前沿的脑机接口,大家都知道马斯克的Neuralink专门做脑机接口。既可以导入数据也可以导出数据,和电脑上插个U盘是一样的道理。这一天已经到来了,只不过非常早期,那些四肢不能动的残疾人或病人,可以用脑机接口来控制鼠标,控制另外一台机器,它在未来能够实现的一些能力就非常值得畅想。
李淼:我第一次听到觉得有点害怕。现在了解了我看到它有很好的用处,如果早实现几年,作家史铁生就可以在脑袋上面装一个芯片,腿上装一个关键的控制神经的芯片,大脑发出指令后,通过无线电波传导到芯片上,可以强制神经动起来。这是残疾人的福音。
这件事情实际上几十年前科幻作家早就想过,即如何让肉体的人在计算机里面实现永生,就是把大脑的灵魂在计算机里面重新实现,然后你就活在计算机里面了,有点像《黑客帝国》。这件事情事关伦理问题,我提出一个开放式的问题,如果把我的大脑在电脑里面重组,这个人在电脑里面是形成了一个独立的意识体吗?如果确定,咱们也不用买书,不用看书了,直接用芯片来训练大脑得了。他的智商一定是上天入地的。
*解决产权和设备能耗问题后,脑机接口或是终极设备
北京图书大厦内的听众全神贯注
倪贤豪:我觉得脑机接口或会成为AI空间或者第三种存在或者元宇宙时代的一个终极设备。如果脑机接口最后在解决了伦理和隐私保护等问题后能够真正进入到民用阶段,它会去实现一些完全全新的学习方式、交互方式,也是和虚拟的机器人、智能体交互的最好的一种办法,因为如果能够靠脑电波去实现高效的交互,速度极快。
从负面效应来看,要提防两点。
第一,如果读书获取的知识要通过脑机接口植入大脑的话,比如我们的图书出版业需要提前确认好知识产权问题。
第二,涉及大模型的设备功能能耗问题。比如一个芯片载入或者植入人体的大脑或者说器官,如果功耗过载就会遇到散热问题,最直观的体验可能就是被植入的人体感觉到温度太高。所以,芯片硬件需要解决这个问题。另外,供能是怎样持续或补充的?云端的算力如何去支持?这些都是一些协调的方式。
朱嘉明:脑机接口技术是人工智能领域的一种简洁技术,其目标是将一个人工智能硬件和软件系统直接嵌入到大脑神经系统,实现与大脑的直接链接,激活和扩张大脑潜在的功能。但是,目前脑机接口技术还不够成熟,处于实验阶段。贰李飞飞选择了另外一种技术路线,通过开发基于人工智能技术物理引擎,展现人工智能的空间,这个空间很可能即是虚拟的,又是真实的,而且是人类可以共享的。也就是说,脑机接口技术和李飞飞技术,代表了人工智能的多元技术发展方向。其共同特点都是突破人类的自身局限性。
李祖希:这里强调的是咱们大脑其实有一定的物理和生物的局限性,但对于AI这种硅机生命来说,它的速度只受限于一些算力的能源条件,并不存在绝对的上限。
整理:李念
作者: 朱嘉明 倪贤豪 李淼 李祖希
文:朱嘉明 倪贤豪 李淼 李祖希图:朱梅全摄编辑:李念责任编辑:李念
转载此文请注明出处。