从物联网到数联网,谈“大数据如何变废为宝” | 大家

大家·科技前沿
MASTERS


图片

傅洛伊

上海交通大学电子信息与电气工程学院计算机科学与工程系副教授,博士生导师


自21世纪以来,“万物互联”的物联网中承载的数据量巨幅增长。相较于物联网,高维数据之间彼此关联形成的“数联网”更能帮助我们深刻地发现和提取数字、网络乃至客观世界中存在的规律。但至今每年只有约8.6万亿兆字节的数据被存储、分析和利用,更多的数据被人们当作“数据废气”忽视并丢弃了。然而,这些“数据废气”中蕴含着丰富的信息。为了更充分、合理地挖掘数据在互联中产生的价值,一种新的知识度量体系被有效地设计出来,并在科学知识和主题的演进过程中发现了规律。


从物联网到数联网:万物互联向数字世界衍生

相信大家对物联网这个概念并不陌生。顾名思义,物联网就是把所有物品通过网络连接起来,实现任何物体、任何人、任何时间、任何地点的智能化识别、信息交换与管理。物联网的本质就是将信息技术(IT)基础设施融入物理基础设施(如铁路、桥梁、隧道、公路、建筑等)中,并且互相连接,形成物物相连的网络,实现实时的、智慧的、动态的管理和控制。

物联网的快速发展与普及已经催生出大量的现代化应用,在公共事务管理、公共社会服务以及经济发展建设三大方面发挥着不可或缺的重要作用。

回顾历史,我们经历了三次全球信息化的浪潮。
第一次信息化浪潮出现在1980年前后,随着个人计算机开始普及,人们处理信息的能力快速增长;在1995年前后,互联网和移动通信网开始普及,信息传输更加便捷,人类迎来了第二次信息化的浪潮;在2010年前后,物联网快速发展,丰富了信息的获取,拉开了第三次信息化浪潮的大幕,这也意味着大数据时代的到来。

物联网将经历四个发展阶段:从无线射频识别(RFID)的广泛应用到物体互联,再到物联网的半智能化,最终进入全智能化阶段。如今,我们仍在努力实现物联网全面智能化的美好愿景。

人们一直在思考,怎么样才能让物联网更加智能化?

实际上,数据是非常关键的入口。据统计显示,物联网每年产生的数据量高达400万亿兆字节。从可穿戴设备到智能家居设备,再到高端连接平台,各种产品都在生成大量数据。例如,波音787每小时可以产生40 TB的数据,力拓采矿业务每分钟产生的数据量可达2.4 TB,是推特日产数据量的20余倍。

由此可见,物联网不但为设备提供了物理连接,更丰富了数据的供给。

无论是数值总量还是增长速度,物联网中的数据量都早已远远超过了设备量。因此,合理利用这些“大数据”就显得尤为重要。

数据为深度解析和理解物联网内容提供了依据。尽管物联网中承载的数据量巨幅增长,但可惜的是,绝大部分信息被人们忽视,没有被储存和分析。
我们可以更好地利用这部分数据。这些数据因为其来源、功能等方面的不同,往往具备更高维度的属性信息,因而能更细粒度地反映和描绘物理世界当中的现象。我们将这些数据之间构成的网络称为“数联网”。
由于数联网中的海量数据具有高维属性,彼此联结形成的复杂图结构在刻画能力上远超此前的平面图,因此,数联网的结构形态更像是一种高维图。以设备赋能为基础,还能形成智慧连接的“智联网”。

作为连接物理世界和人类社会的桥梁,如何实现人-机-物之间的知识传递是物联网向数联网进化的必由之路,是物联网智能化发展的关键

通过数据终端感知群智采集技术,可以实现从物理世界向数字世界的进化;而数据的关联构建与知识的提取度量,则是从数字世界向精神世界进阶的重要环节。

那么,数据如何在互联中产生价值呢?


知识度量:让数据在互联中产生价值

知识度量回答的就是数据在互联中如何产生价值的问题。为了便于分析,我们从一种特殊的数联网入手,即由论文组成的数联网,我们把它称为“论文数联网”( Internet of Papers,IOP)
正如20亿人相连可以形成Facebook这样的社交网络、10亿台计算机连接形成了互联网、1000亿台设备相连形成物联网一样,学术可视化搜索系统爱思美谱(Acemap)中的两亿文章相连,就形成了IOP这样一个特殊的数联网。
IOP意味着学术大数据的飞速增长。在学术文献骤增的情况下,我们人类,尤其是科研人员,面临着获取知识的能力与信息生成速度之间日益突出的矛盾。
因此,当今的研究人员在面对茫茫文献大海时,往往会陷入阅读疲劳的困境。在这种背景下,我们可以提出一个等价的问题:是否能够从科学生产力中解耦出知识量?


事实上,存在许多相关的量化指标,例如H指数、G指数、影响因子等等。这些指标都从不同的维度出发,站在科学生产力的角度筛选出具有影响力的文献。但是,这些指标其实仅仅是基于引用量的统计指标,侧重于描绘影响力。而影响力通常是局部性的,只受直接引用的影响,不足以反映知识如何在不同文章之间传承。然而知识是全局的,引文网络的任何变化都可能对知识产生影响。因此,影响力无法反映论文在引文网络中所处位置的重要性




尽管知识的度量相当重要,但在计算机科学史中,关于知识的定义,特别是知识的量化,仍然是一个空白。
著名的哲学家柏拉图曾经在几千年前提出了JTB理论。简而言之,他认为知识是可辩护的(Justified)、真(True)、信仰(Belief)。另一位哲学家葛梯尔随后曾对此提出过质疑,但自此以后,就再也没有对知识的哲学化定义了。
然而,这并不妨碍后来的科研人员对知识进行不断的度量方面的研究。
实际上,已经有大量的研究结果表明,知识存在结构,并且网络在解释知识方面具有重要作用。考虑到学术数据中存在大量的引用关联关系,我们把这些关系建模到一个学术引文网络中,在这个结构化空间里去寻找知识。
巧合的是,在引文网络中确实可以看到知识的迹象。首先,一篇论文的后续引用可以反映该论文的广泛认可程度,即网络中的相对真理,类似于柏拉图认识论中的“知识的相对性”。其次,论文的参考文献可以反映论文来源是否可靠、是否合理。因此,知识可以被表达为论文及其依赖的结构,也就是说,知识的意义就体现在学术网络的关联关系当中。我们无法判断不属于结构的知识,正如同我们无法判断拓扑网络之外的节点一样。

KQI:一种知识的量化指标

知识是以信息为基础的,而对于信息的量化已经有一些相当成熟的理论,比如非常经典的香农信息熵,以及2016年北航李昂生教授提出的结构熵等。
因此,信息论可以作为知识量化的线索。
在物理学当中,熵是测量无序程度的指标;香农熵度量了离散概率分布的混乱度,而结构熵度量了将离散概率分布组织成结构化网络后的混乱度。这两者恰好对应着知识将无序数据组织成有序数据的过程。因此,计算这两种熵的差值,就可以体现知识在其中发挥的作用。
因此,我们可以将其定义为知识的量化指标,即KQI(Knowledge Quantity Index)。例如,在论文评估体系中,香农熵依据各个文章的参考文献数量和引用量进行计算,而结构熵的计算则考虑了整个引文网络的结构。
香农熵、结构熵与知识的关系如图所示。

图片

熵与知识的关系
虽然我们不知道有多少未知信息存在,但我们知道已知信息有多少。通过发现的过程来扩展视野当中的信息(香农熵),通过学习的过程来结构化信息形成知识(KQI)。因此,KQI反映了知识被量化的程度。
接下来的问题是KQI可以用来干什么,以及KQI可以用来揭示什么?
为了探索这些问题,我们在Acemap学术数据库中约两亿篇的学术文献上进行实验。
结果表明,从1970年到2020年,对于大多数学科而言,与文献数量的爆发式增长相比,知识通常随时间线性增加。这表明知识增长的速度与科学生产力之间存在脱节,并且这种趋势至今没有减弱。不同领域的学术网络结构的差异也会导致知识量呈现差异。实验结果还显示,不同领域的知识量排名与科学生产力的排名并不完全一致,即两者并不等价。我们在经典的巴拉巴西-阿尔伯特无标度网络(BA)模型下进行了理论分析,证明了文献数量的多项式增加只能带来知识的线性增加。至此我们得到了两者之间的量化关系。

结果表明,从1970年到2020年,对于大多数学科而言,与文献数量的爆发式增长相比,知识通常随时间线性增加。这表明知识增长的速度与科学生产力之间存在脱节,并且这种趋势至今没有减弱。不同领域的学术网络结构的差异也会导致知识量呈现差异。

实验结果还显示,不同领域的知识量排名与科学生产力的排名并不完全一致,即两者并不等价。


我们在经典的巴拉巴西-阿尔伯特无标度网络(BA)模型下进行了理论分析,证明了文献数量的多项式增加只能带来知识的线性增加。至此我们得到了两者之间的量化关系。
有人说,21世纪是生命科学的世纪。有趣的是,通过对文献数据进行KQI探索,我们发现在这一时期,生物学和医学领域的KQI确实呈现出加速增长的趋势,但这些领域的论文数量并没有异常增长。材料、工程等领域也存在类似的现象。
为了解释这些现象,我们借鉴经典渗流理论当中网络级联故障的临界效应,得出了知识爆发增长的临界点。
临界点意味着知识之间建立了充分的关联,从而促进了知识的蓬勃发展。具体来说,从一些活跃的知识开始,一定数量活跃知识的共同启发可以激活一个不活跃的知识,最终导致几乎所有的知识都可以被激活。不同的领域具有不同的阈值a,说明从一篇论文迁移到另一篇论文的难度是不一样的。
我们发现,基于前人工作不断深挖的领域不容易达到临界值,而开创性工作的领域则恰恰相反。
对此,一种合理的解释是,外界对深挖领域的工作难以全面理解,所以知识爆点的临界阈值a值较高。对于每一个领域来说,随着科学生产力的提升,只要知识量达到这一知识爆点阈值,都会发生质的转变
通过KQI,我们还可以发现一些现象。帕累托法则,也称为二八定律,指的是最富有的20%人口拥有大约80%的财富。我们发现知识中也存在类似的二八定律,即17%的科学文献可以占据一个领域里83%的知识量,而83%的文献只占据17%的知识

与贫富矛盾不同,知识领域中的二八定律反映了顶尖论文和普通论文之间的辩证关系。一方面,没有普通论文的积累就不会有顶尖论文的出现;另一方面,过多普通论文又会淹没顶尖论文。这一规律意味着,只需研究少量论文,就可以获得其学术网络中绝大多数的知识。

然而,我们必须注意,不能忽视那些80%的文献的价值,因为KQI低并不意味着文献一文不值,只不过它可以被KQI高的文献概括


受此启发,我们提出了知识脉络的概念,也就是通过KQI,用最少的论文来涵盖大部分知识,以代表学科的发展。这可以帮助年轻的研究人员决定阅读哪些文章、帮助跨学科工作者快速掌握新学科的概况,以及帮助我们建立知识体系,撰写文献综述等

KQI的应用:知识评估与度量

KQI还可以用来反映各个学科在不同时期的知识含金量的变化。
以计算机学科为例,下图展示了该领域KQI排名前五的论文的KQI走势,以及它相对引用量的变化。
图片
计算机论文的KQI与引用量的变化(实线代表KQI,虚线代表引用量)
这5篇论文在计算机学科中都很有影响力。
我们可以观察到,论文的KQI随研究热点的转移不断变化。例如,神经网络相关的研究起始于20世纪80年代,但在1995年左右,由于支持向量机算法的出现,这一研究进入了冬天;近年来,随着深度学习的兴起,这一领域再次蓬勃发展。这种变化在KQI上表现得非常明显,但在引用量这一指标上并没有得到反映。
此外,KQI还能够找到那些引用量不高但具有价值的论文,同时也能过滤掉那些引用量很高但是知识量不高的论文。如下页图所示,深色格子代表引用量和KQI一致,浅色格子代表两者之间不一致。引用量的高低与文章的价值(“√”或“×”)并不完全一致,KQI则更能反映一篇论文的价值。即使一篇论文的被引频次不高,但如果它产生了一定的影响力,也会间接说明这篇论文的价值。

图片

如何评价文献:KQI与引用量
此外,当图结构发生变化时,即使引用量不变,论文的KQI也会随之变化。受最新研究热点的影响,KQI的值会有增有减,这样会更真实地反映一个工作的知识随时间的变化。
KQI与柏拉图JTB理论也是相对应的:一篇论文的正确性通过引用来反映,看它是否被广泛认可;而合理性则通过论文的参考文献来反映,看它是否基于一些被认可的论文。KQI同时反映了论文的正确性和合理性。
由于熵的可加性,我们也可以根据作者对论文进行KQI的聚合,以度量作者的KQI。
以图灵奖和诺贝尔奖为例,计算机领域KQI排名前50名的作者中有1/3都是图灵奖获得者,而KQI排名前10000的作者包含了现有数据中共74个图灵奖获得者中的71位,以及86位诺贝尔经济学奖获得者中的85位。仅有几名作者未被收录,有的并非因为论文获奖,还有一些被归类到数学领域。
另外,冯·诺依曼奖章、麦克阿瑟奖、兰切斯特奖,以及信息检索之父、信息理论之父等,在KQI度量中都名列前茅。
同时,我们还对机构和国家做了KQI排名。

我们发现,美国在文献数量和KQI上都远远超过其他国家。如今,中国的文献总量达到美国的一半,但KQI尚有差距。这也说明近年来呼吁中国科研从数量向质量转变的声音是正确的。

由于KQI广泛适用于国家、机构、作者、论文等不同粒度对象的度量,我们也可以对它们进行交叉比较。我们可以发现:厉害的国家通常有更多的机构,也与学者的质量、论文的数量和质量相关;厉害的机构通常有更多厉害的学者和论文;厉害的学者通常有更厉害的论文。这也暗示了KQI在消除唯论文数量和打破内卷现象方面是具有潜力的

愿景:从万物互联迈向万命互联

实际上,还有一个更大胆的设想,即从物联网到命联网,达到万命互联的境界。我们已经认识到,万物互联消除了信息的不平等;而进一步的万命互联则有助于破解生命的密码,探寻生命的奥秘。
人类社会经历了农业时代、工业时代,正在从信息时代向生命时代变迁。在物质相对富足的情况下,健康、长寿、美丽和幸福将会被放在第一位。幸福和美丽不易量化,而健康和长寿是可以衡量的。“只有可以衡量的东西,才能被管理。”因此,健康和长寿是可以管理和改善的人类共同目标,而基因则是生命的根本。
在健康和长寿管理中,检测和预防起着重要作用。如果我们能提高病因明确的重大疾病(如唐氏综合征、耳聋、宫颈癌、肠癌等)筛查的检测通量,降低检测价格,就能及早实现重大高发性疾病早筛的全面覆盖。只有早筛查、早发现,将生命健康的重心从“精准治疗”前移到“精准预防”,才能实现精准健康管理,显著提升人均期待寿命并大幅降低社会卫生总负担。
不同物种之间基因的配对可以阐释物种之间的相似性。例如,人类与猪的基因相似度高达95%,人类和果蝇的基因相似度也有60%。因此,从命联网的角度来看,或者说从以基因为节点的网络视角来看,它们之间实际上存在关联性,它们都是命联网的一部分。
其实,万命互联这个概念早在19世纪就被德国著名的博物学家洪堡(Alexander Von Humboldt)提出。他当时提出了“生命之网”的概念,也就是说将世界看作一个有机的整体的自然观。
他曾经说过:“一切事物都相互作用,有往必有还。
所以,万命互联也是生命之网的终极意义。这也启示我们以联系的观点看待问题,将人与自然视为一个有机整体,才有助于推动人类文明不断向前发展。

结 语

在现实网络中,信息来源于数据,而知识又能创造智慧。随着网络、大数据和人工智能技术的不断发展,从物联网到数联网再到智联网,网络的形态与功能也在不断地丰富和完善。
在这个过程中,数据、信息、知识和智慧四者不是相互独立的,而是可以有机地被统一起来,层层递进,形成自下而上贯通的“数据-信息-知识-智慧”系统,为物联网智能化提供重要的理论技术保障。
为了进一步推进网络强国建设,促进当代网络技术乃至生产生活方式的变革,我们还需要进行更深入、更完善的探索与研究。

-本文刊载于《世界科学》杂志2024年第11期“大家•科技前沿”栏目;文章根据笔者在上海市科学技术普及志愿者协会主办的“海上科普讲坛”上的报告撰写而成-