近日,以“数据要素驱动高质量发展”为主题的第六届数字发展论坛在中关村东升科技园举办。中国工程院院士、中国互联网协会专家咨询委员会主任邬贺铨受邀出席并作题为“建设数据基础平台营造数据要素生态”的主旨演讲。邬贺铨院士指出,数据贯穿数据收集、处理、传输、融合、挖掘、服务、应用、销毁等全生命周期,人工智能的迅速发展推动数据进入全新时代。
数据是生产要素,贯穿数据收集、处理、传输、融合、挖掘、服务、应用、销毁等全生命周期。数据基础设施是数字基础设施重要组成部分,介于网络基础设施与数据应用服务之间。数据生态包括数字基础设施、数据基础制度、数据治理体系、数据产业与服务、数据人才等。
人工智能的迅速发展推动数据进入全新时代。目前,基础大模型在行业中的直接应用有限,需进一步优化为行业大模型。主要途径有两种:一是将行业数据提供给基础大模型提供方,但需妥善处理垂直行业涉密问题;二是通过购买或租赁基础大模型自主训练行业模型,但此类模型的实际效果仍存在不足,需进一步提升应用效果。
截至目前,全球行业大模型的发展尚不成熟,但小模型在供应链、市场营销、智能客服等领域已展现出一定应用潜力。然而,实现真正的数据落地,仅依靠模型还远远不够。应推动数据逐步上云,向终端下沉,深入智能体及物理实体,实现具身智能,并通过群智协同推动通用人工智能的发展。
首先,数据驱动AI上云与落地。随着中国企业上云比例的逐步提升,云服务逐步向模型即服务(MaaS)发展,为企业提供了直接应用大模型的机会。MaaS结合大模型技术,允许企业在云端微调自身数据,推动数字化转型。高通、苹果等终端设备升级,实现了嵌入大模型的能力,提升了设备的空间计算能力,降低时延并增强隐私保护。工业领域的具身智能技术赋予物理实体感知和反馈闭环能力,促进了智能机器人、智能驾驶等应用的快速发展。人工智能为数据落地应用提供了拓展机会,基础大模型在智能客服、员工培训、智能风控等行业场景中具备直接应用价值。
其次,数据资源建设与追踪。中国拥有丰富的人口和产业数据资源,但目前数据存储和开放比例较低,存储数据仅占3%。工业数据不共享、采集难度大,特别是自动驾驶等领域依赖大量仿真数据,缺乏真实数据支撑。在数据资源建设过程中,当前面临的主要问题包括数据标注难度大、数据开放与隐私保护的挑战以及跨境数据流动管理的复杂性。针对这些问题,需采取一系列针对性解决方案,具体如下:
一是数据标注。当前,数据标注的成本较高,工业数据标注尤为复杂。当前约70%的数据仍依赖人工标注,尤其是语言和视频数据标注工作,属劳动密集型工作。工业数据标注难度更大,需行业专家参与,仅靠普通技术人员难以完成,这导致工业数据标注成本和人才需求极高。为此,运用AI技术辅助数据标注的方式正在探索。为确保数据标注的规范性,需区分原始数据与AI生成数据,并对AI生成数据进行水印标记,以提升数据来源的可追溯性和可信度,尽管水印并非万能,但在数据质量保障上具有一定作用。在部分场景中,可通过AI技术辅助标注,提升效率并减少人工干预。如视网膜病变数据中已实现约10%人工标注,其余由计算机自动学习完成。
二是公共数据开放与隐私保护。在数据开放过程中,政府掌握了大量数据资源,但对于个人数据需进行去标识化处理,采取过滤、加密、乱序、屏蔽等方式,以保障隐私。对于跨境数据流动,需进一步实现匿名化,以防止用户敏感信息的泄露。
三是限制对数据的非法访问。对可被境外主体访问处理的境内数据仍属跨境数据流动管理范畴,需要对源地址认证;对批准出境的重要数据或大量个人信息仍要核对其是否到申报备案的目的地。在此基础上,需对公共数据流向进行严格把控,避免未经授权的境内数据外流。相较传统IPv4,IPv6技术在数据流动过程中加入了身份、用途等属性信息,并能够细化服务质量(带宽、时延等)要求,满足不同数据流动的场景需求。IPv6还支持分段选路技术,实现路径的可控和可溯源,保障数据传输的稳定性和安全性,有效避免数据流动过程中的不可控性,确保数据传输路径符合安全规范。
四是数据空间与数据可控共享。垂直行业企业(如中石油、中石化)拥有大量数据,但因缺乏数据开发能力,难以实现数据价值最大化。IT企业具备开发能力,但垂直行业企业将自身数据交给IT企业来推理,担心数据泄露风险。为此,可通过构建数据空间,实现数据加密存储与管理,确保数据可用但不可见。这种模式能够让IT企业在封闭的可信数据空间内对传真行业企业的数据进行可用不可见的开发与计算,保障数据安全。在产业链上下游合作中,数据提供方和使用方可以通过加密的方式共享数据。数据空间中的数据虽加密,但由于合作关系,双方可在计算应用时解密数据,确保数据在计算中可用且不泄露。对于更为机密的数据,同态加密技术可以实现加密数据的计算,确保加密后的计算结果与原始数据一致,同时避免数据外泄。在跨境数据流动的背景下,数据提供方可通过数据空间管理数据的跨境传输,确保符合国家法规与安全要求。数据可以加密存储,使用方通过合同关系解密数据进行应用。然而,若境外数据使用方违反规定,数据提供方可通过修改加密密钥,阻止数据继续被解读,实施数据出境的长臂管辖,实现跨境数据流动的可控性和合规性。
五是网络安全与数据保护。当前,许多企业在数据应用过程中面临较大网络安全压力,必须高度重视防范数据被劫持的风险。为有效防止数据被劫持,应从多个方面采取管控措施,具体包括限制数据访问的时间、次数和访问点等,即使是合法接入者,也应在规定的时间和地点进行访问。与此同时,必须加强对外部攻击的防范。随着网络安全问题日益严峻,单一企业依靠自身力量提升网络安全防护能力已显不足。各企业、机构应积极倡导政府牵头,整合各方资源,形成社会化网络安全体系,做到“有难共援”,从而提升数据要素应用和数字化转型中的网络安全保障能力。
六是数据可信性与防伪。人工智能技术的快速发展不仅促进了数字产业的进步,也带来了数据伪造和虚假信息的问题。AI技术的应用可能产生非恶意的幻觉,从而影响数据的可信性。
七是数据的归属性与资产性及挑战。目前,数据的归属性确认仍面临较大困难,尽管区块链等技术有所尝试,但并未有效解决这一问题。在数据资产的价值认定方面,尚无明确标准,数据的规模和新旧属性并不必然决定其价值高低。此外,数据交易中,场内交易的比例较小,更多的交易发生在场外,这一现象揭示了当前数据交易体系的挑战和不确定性。
最后,建设数据基础平台营造数据要素生态。推动数据应用的发展,必须加强平台建设,政府在其中应发挥关键作用,特别是在建设算力平台和数据资源供给平台方面。首先,政府应率先推动数据开放,包括建设高质量的语料库和AI生成数据技术的检验与标注中心。其次,应搭建保障数据流通的平台,推动数据空间建设,提供数据融合开发技术、合规交易技术和加密计算支持。为确保数据安全与合规,可以建设数据保税区,处理境外数据时,既要确保数据不被滥用,也要防止夹带不符合意识形态管理规定的内容。此外,数据流通平台应具备算力、算法模型及辅导功能,为市场分析、产品设计、生产调度等方面提供支持。对中小企业而言,开放第三方平台尤为重要,政府应为企业提供有效辅导,帮助其正确使用发放的算力券,并在实际应用中提供专业指导,从而推动数据要素的全面应用与数字化转型。