(报告出品方:国金证券)
1.数据要素市场是数字经济发展的核心引擎
1.1 数据成为生产要素,成为数字经济时代的“石油”
数据要素作为较新的经济学概念,准确清晰地理解和定义数据要素市场相关概念是探索和 培育数据要素市场模式和方向的重要前提,根据国家工业信息安全发展研究中心报告,我 们给出以下对数据、数据资源和数据资产的定义: 1)数据:是指所有能够输入计算机程序处理、反映一定事实、具有一定意义的符号介质 的总称。 2)数据资源:是指按一定规则排列组合的物理符号集合,用于承载或记录信息,这些信 息可以是数字、文字、图像,也可以是计算机代码的集合。 3)数据资产:本质上是产权的概念,是指个人或企业拥有或控制的、以物理或电子方式 记录的能够为个人或企业带来经济利益的数据资源。 数据已成为新型生产要素,具有劳动工具和劳动对象的双重属性。生产要素是指进行社会 生产经营活动所必需的资源和环境条件,随着经济的发展,生产要素的具体形态和主次序 列不断变化,传统的生产要素主要包括土地、资本、技术和劳动力,在 5G、物联网、云 计算、大数据、区块链和人工智能等技术的共同作用下,数据对生产的贡献日益突出。作 为新型生产要素,数据具有劳动工具和劳动对象的双重属性,作为劳动对象,数据通过采 集、加工、存储、流通和分析等环节具有价值和使用价值,作为劳动工具,数据通过融合 应用能够提高生产效率,推动生产力的发展。数据要素市场的目标是实现数据要素的市场 化配置,将数据要素从尚未完全由市场配置转向由市场配置的动态过程,其目的是建立以 市场为基础的调配机制,实现数据的流动价值或在流动中产生价值。
数据要素主要通过业务贯通、数智决策和流通赋能三条途径实现自身价值。首先,数据投 入生产的一次价值体现在支撑企业和政府的业务系统运转,实现业务间的贯通,为释放数 据要素的初级价值,政府和企业的主要任务是推进业务的数字化和各类业务信息系统的建 设。其次,数据要素二次价值释放体现在通过加工、分析、建模等过程,揭示出更深层次 的关系和规律,从而使生产、经营、服务和治理等环节的决策更加智慧、智能和精准,该 过程对企业的数据挖掘和分析能力提出了更高的要求。最后,数据要素的三次价值释放体 现在将数据流通到更需要它的地方,让不同来源的优质数据在新的业务需求和场景中汇聚 和融合,实现双赢和多赢的价值利用。
从产业链的角度出发,我们将数据要素市场归结为数据采集、存储、加工、流通、分析和 生态保障六大模块。数据采集环节关注确保数据采集的准确性和全面性。数据存储环节关 注确保数据存储的安全性和实时调用的可行性。数据加工环节关注确保数据加工的精度和 准确性。数据流通环节是数据要素市场的核心环节,关注在保障所有者权利的前提下进行 合理合规的数据流通。数据分析环节关注深度分析和挖掘数据的价值和潜力。生态保障环 节包括数据资产评估、登记结算、交易撮合、争议仲裁以及跨境流动监管等,旨在为数据 要素市场各主体提供有效的保障,并构建一个良好的市场生态。
数据要素产业图谱清晰,国内企业集中度较高。虽然数据要素作为一个较新的经济学概念, 但与数据相关的产业已经在国内经过了较长时间的发展,例如在数据存储方面信创之风已 经提前带领国内数据库反弹复苏,以华为、阿里和腾讯为首的云数据库,以及以达梦、南 大通用为首的传统数据库,还有 OceanBase、GoldnDB 和 TiDB 等国内分布式交易型数据库 快速发展。除此之外,AI 大模型的快速崛起也大幅增加了对模型训练的需求,数据加工 中的数据清洗、标注和审核等工作需求激增,百度 EasyData、海康 NLP 等技术获得关注。 数据流通环节作为二级市场的关键环节,在数据确权和隐私计算方面的国内企业如拓尔思、 易华录等公司获得市场资金大幅支持。生态保障的主要参与者是政府机构和组织,例如北 京数据资产评估中心、大数据交易所以及国家数据局等监管机构等。
我国数据要素市场规模持续扩张,数据要素成为数字经济发展新引擎。数字化的本质是在 信息化的基础上,对系统产生的数据要素,利用大数据、AI、区块链等数字技术,进行流 程改造、数据决策、商业模式重构等全新的价值开发,核心目的是实现商业增量。国家工 业信息安全发展研究中心数据显示,我国 2021 年数据要素市场规模达 815 亿元,预计“十 四五”发展期间年均增长率达 25%,有望在 2025 年达到 1,990 亿元的市场规模。同时可 以发现,2022 年我国数据要素市场中数据存储、分析和加工行业位列前三,随着人工智 能和互联网技术的进步,数据量的增大对数据存储提出了更高要求,数据的安全、可靠和 隐私存储市场需求逐步扩张,AI 大模型的快速演进带动数据加工中的清洗和标注工作需 求量激增,我们看好数据要素行业相关企业未来的快速发展。
1.2 政策催化强劲,行业景气度拐点已至
从政策到顶层管理架构,数据要素体系根基逐渐稳固。2019 年党的十九届四中全会首次 将数据列为生产要素,表明国家大力发展数字经济的决心,并标志着数据从资源向要素的 转变。2020 年 4 月,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体 制机制的意见》,明确将数据市场与土地市场、劳动力市场、资本市场和技术市场列为加 快培育的五大核心生产要素市场之一,数据要素进入市场化阶段。2022 年 12 月,国务院 发布“数据二十条”这一纲领性文件,确立了数据要素发展顶层指导框架。2023 年 3 月, 国家数据局成立,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用, 统筹推进数字中国、数字经济、数字社会规划和建设等。地方层面,多个省市密集发布数 据要素相关政策,数据要素产业进入实质性落地阶段。
顶层文件“数据二十条”搭建数据要素“四梁八柱”。2022 年 12 月 19 日,《中共中央国 务院关于构建数据基础制度更好发挥数据要素作用的意见》正式对外发布,又称“数据二 十条”,这是继 2020 年 4 月 10 日发布的《中共中央国务院关于构建更加完善的要素市场 化配置体制机制的意见》之后首次全面明确国家级政策文件中的数据基础制度。“数据二 十条”涵盖了四个制度领域,包括数据产权、流通交易、收益分配和安全治理。在数据产 权方面,建立数据资源持有权、数据加工使用权和数据产品经营权的“三权分置”结构。 在流通交易环节,建立场内外结合的数据要素流通和交易制度。在收益分配方面,遵循了 “谁投入、谁贡献、谁受益”的原则。在实行贡献值分配的基础上,还关注公益和相对弱 势群体的利益,在再分配环节进行相应的考虑。在安全治理方面,通过“以链治数”的监 管模式,实现了数据要素的安全可信流通。“数据二十条”的发布对于更好地发挥数据要 素的作用具有重要意义,为数据基础制度的建设提供了全面的指导和规范。
国家数据局获批成立,职责权限明晰集中有望实现数据要素发展再提速。2023 年 3 月,《党 和国家机构改革方案》印发,该方案在保持现有工作格局的总体稳定的前提下,提出了整 合共享和开发利用数据资源的职责相对集中的要求。根据该方案,国家数据局作为国家发 展和改革委员会管理的国家局,负责协调推进数据基础制度建设,统筹推进数字中国、数 字经济、数字社会规划和建设等任务。我国数字经济规模全球排名第二,约占国内经济总量的 40%左右,设立国家数据局展示了与时俱进的态度,体现了国家对数字经济发展的顶 层设计,符合时代要求和发展需求。国家数据局由发展和改革委员会直接管理,有助于消 除部门之间、系统之间和地区之间的壁垒,实现数据要素的互联互通,将解决过去数字经 济管理中的碎片化问题,并减少地方数字经济发展不均带来的数字鸿沟,提高数据交换的 效率和准确性,加快数据要素产业的发展进程。
多个省市成立数据集团,有望成为各地政府参与数据运营的抓手。央企层面,中国电子数 据产业集团于2022年12月成立,是国内首家由中央企业设立的数据产业集团;地方层面, 上海、河南、福建、陕西、成都、南京等地陆续成立数据集团,多为政府主导。数据集团 以数据为核心业务,实现公共数据、行业数据和社会数据的交汇、供给、配置及市场化开 发利用,开展数字资产运营、数据交易服务和数字产业投资。
各地大数据交易所陆续挂牌运营,加速数据要素价值转化。我国自 2014 年开始探索建立 类似证券交易所形式的数据交易机构,随着数据要素相关政策的推动,数据产品交易迎来2.0 时代。2015 年 4 月,贵阳大数据交易所正式挂牌,根据数据交易网,截至 2023 年 6 月 21 日,贵数所已累计集聚“数据商”、“数据中介”等市场主体 629 家,上架产品 1055 个,交易 888 笔,共计交易额达 14443 万元。2021 年 11 月,上海数据交易所揭牌交易, 根据数据交易网,2022 年上海数据交易所数据产品挂牌超 800 个,涉及金融、交通、工 业、通信等 12 个行业领域,交易金额突破 1 亿元。2022 年 11 月,深圳数据交易所挂牌 运营,截至 2023 年 6 月,深数所已累计交易突破 700 笔,覆盖 165 个应用场景,生态合 作机构突破 900 家,汇集数据产品超 1500 个,服务触达 2000 家以上市场主体。截至 2022 年底,全国数据交易所已近 50 家。各大数据交易所交易主题、上架产品以及交易规模都 处于快速发展态势,数据产品和服务类型日益丰富,能够提供数据 API、数据集、数据报 告等多种形式的产品和服务。
土地财政收入增速下降,数据要素探索“数据财政”可能性。土地财政主要指政府通过出 售土地或者收取土地使用权等方式获取财政收入的政策,然而土地资源的有限性在我国经 济转型升级和高质量发展的背景下,探索通过财政税收工具和手段从数字经济的关键要素 中取得一定比重的财政收入,并发挥财政的基础性、支柱性国家治理作用是非常有意义的。 数据财政是基于大数据和人工智能等新兴技术的发展,将数据视为新的财富来源的理念, 具体而言数据财政包括数据进入市场之前,在数商组建、数据产品开发、登记等环节的监 管伴随的财政活动,以及数据进入市场之后,在数据开发、服务、再生产等过程,通过财 税手段实现对数据市场的激励和管理。欧洲地区率先对数据服务进行征税,在国际税收改 革背景下提出的一种对数字服务进行征税的新模式,主要针对的是那些利润丰厚但却往往 在欧洲本土纳税不多的跨国数字巨头,给我国推行数据财政提供了参考意义。
“数据财政”制度将在数字经济发展和国家治理中扮演重要角色。数据资源具有公共性, 数据权利分置创新拓宽了数据流通空间,建立数据财政制度是完善数据基础制度的需求, 体现数字经济公共利益和全民共享数字经济红利;同时,数据财政发挥现代国家治理中财 政作用,推动数据要素成为新生产要素,创造良好环境实现要素市场化配置,注入新时代 寓意。数据财政主要通过财政支出和收入发挥治理数据要素市场的功能,在数据市场化起 步阶段应当以财政激励和适当轻税推动数据供需市场发展,并力争形成良性循环;同时确 立数据财政方式和手段,包括归并公共数据、提供公益性服务和有偿服务、采用财税政策 和管理要求等;此外,建立数据财政制度和政策,涵盖公共数据资产管理、数据定价、数 据税收、收入分配等也是试试数据财政的主要工作之一;最后,运营包括主体准入、运营 级次选择、运营体系、税费征管等。 由单一强调“土地财政”转向“土地财政+数据财政”双轨并行。相较于土地财政,数据 财政的核心标的从土地转变为数据,从而利用虚拟性、共享性和异质性等特点,排除了土 地资源有限、主体独有不可共享和边际效应等问题。在财政收入方面,数据资源的资产性 让其能够参与抵押活动,同时主要的收入来源变成了数据授权或出售过程中的收入,参考 欧洲地区的数据服务税,还可在数据流通、交易和服务等环节征税。从“土地财政”到“土 地财政+数据财政”双轨并行,这种转变反映了政府财政模式的演进和创新,不仅能有效 避免单一依赖土地财政的风险,还能充分利用数据资源,增加财政收入的多样性,进一步 推动社会经济的发展;同时数据财政也可以为政府提供更准确的数据支持,帮助政府更好 地进行政策决策和提供公共服务。
2.垂类 AI 大模型加速落地,推动数据要素市场发展
2.1 AI 大模型向行业垂类模型落地演进,数据成为核心壁垒
2017 年谷歌发布的 Transformer 网络结构是大模型发展的源头技术,自此以后大模型技 术在自然语言理解、计算机视觉、智能语音等方面都取得了标志性的技术突破,在模型精 度、通用性和泛化能力等方面都实现了跨越式发展。中国自 2020 年进入大模型快速发展 期,目前与美国保持同步增长态势,涌现出 GLM、盘古、悟道、文心一言、通义千问、星 火认知等一批具有行业影响力的预训练大模型,形成了紧跟世界前沿的大模型技术群。
数据贯穿 AI 垂类模型训练的始终。AI 垂类模型强调领域的 know-how,对数据在深度和质 量上的要求更高,模型训练分为四个阶段: 1) 通用预训练:在数据质量有保证的前提下,增加数据的数量和多样性,同时提升模型 复杂度,这样可以提供普遍有效的模型增强能力。 2) 领域预训练:在第一阶段通用模型基础上,分别用各个领域数据,再分别做一次预训 练,得到适合解决各个不同领域的预训练模型。3) 任务预训练:选择任务适配的领域预训练模型,在这个模型的基础上,用手头数据, 抛掉数据标签,再做一次预训练。 4) 任务 Fine-tuning。
增加训练数据量对模型性能提升来说更具性价比。根据 OpenAI 的研究,独立增加训练数 据量、模型参数规模、训练计算量时,预训练模型在测试集上的损失会单调降低,模型的 效果越好。DeepMind 在设计 Chinchilla 模型时,对标数据量 300B、模型参数量 280B 的 Gopher 模型,选择将参数降低为 Gopher 的四分之一的同时增加 4 倍的训练数据,无论是 预训练指标,还是很多下游任务,Chinchilla 的效果都要优于规模更大的 Gopher。
金融垂类数据对于 BloombergGPT 模型性能提升效果明显。Bloomberg 作为全球商业、金 融信息和财经资讯的领先提供商,拥有 40 年金融数据的积累。BloombergGPT 是一个有 500 亿参数、基于 BLOOM 模型的 LLM,其训练所用的金融数据集包含新闻、档案、网络爬取的 新闻稿件、英文财经文档等英文金融文档,共包含 3630 亿个 token,是目前最大的金融 数据集。BloombergGPT 在金融语料上的 bits per byte 指标均好于其他垂类模型,在大 多数任务中的得分位列第一,是目前最出色的金融垂类模型。
行业数据成为国内垂类模型卡点。尽管国内 AI 大模型已经取得较大进展,但是行业数据 的可得性限制了垂类模型的应用落地。当前阶段,拥有大量数据积累并且具备行业 know-how 的企业,能够在大模型的基础上学习行业特色数据与知识,打造出 AI 垂类模型。 拓尔思拥有千亿级优质数据,在垂类模型高质量训练过程中具备独特优势。公司拥有 10 余年高质量数据和知识资产积累,拥有超过 1500 亿条高价值的数据和知识资产,包含文 字、图片、音视频等多种模态数据。在数据时效性上,公司重点数据源分钟级更新数据, 日均采集增长过亿条。在数据质量上,公司产业要素数据集与产业风险数据集入选首批“北 京市人工智能大模型高质量数据集”,重点数据主要采集主流官方机构可公开访问的数据, 保证数据源头的“纯净”和完整性,同时配备了专家级的知识标引团队,对行业知识进行 梳理,积累了 30+领域知识库、31000+知识标引规则,保证数据标签的多维度和精准度, 更适配高信源数据在各行业领域的应用场景。
拓尔思凭借丰富的数据资源等优势,结合行业 know-how,面向媒体、金融、政务领域推 出三大行业大模型,实现行业应用落地。 拓天 M 媒体行业大模型:凭借广泛的用户基础、丰富的数据资源、适用场景的理解三大行 业基础,推出内容生产智能助手(智能拟定新闻标题,文章段落续写等),新一代搜索与 推荐(领导人的金句引用),以及多模态传播与服务(虚拟 AI 主播、传播分析报告自动生 成)三大应用。 拓天 F 金融行业大模型:基于用户、数据、知识、场景四大行业基础,推出投研类(生成 金融图谱、标的推荐、风险分析、延保生成、数据获取),智能客服(通过语音识别,摘 要投诉内容、投诉核实、生成解决方案),内容审查(对宣传图进行禁用词、敏感词的审 核)三大应用。 政府 G 政务行业大模型:公司深度理解政务场景,并在数字政府领域积累了大量优质头部 用户和政务资讯的高质量数据,选择了自 2020 年以来的近一亿条数据进行预训练,在政策服务、新一代政民咨询、公文辅助写作三个场景实现应用落地。
医学数据积累和行业 know-how 使医联在垂类模型落地中占据先发优势。医联 MedGPT 为国 内首款医疗大语言模型,目前的参数规模为 100B 规模,预训练阶段使用了超过 20 亿的医 学文本数据,微调训练阶段使用了 800 万条的高质量结构化临床诊疗数据,并投入超过 100 名医生参与人工反馈监督微调训练,目前医联 MedGPT 已经可以覆盖 ICD10 的 60%疾病 病种。在 6 月 30 日国内首次 AI 医生与真人医生一致性评测中,7 位专家教授针对评测形 成的 91 份有效病例进行审核,并且针对 AI 医生的问诊准确性、诊断准确性、治疗建议准 确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与交互这 7 个评价维度的打分之后,最终,真人医生综合得分为 7.5 分,AI 医生综合得分为 7.2 分,AI 医生与三甲主治医生在比分结果上的一致性达到了 96%。
华为庞大的数据积累和多年行业解决方案经验助力行业大模型加速落地。在生态层面,华 为云数智领域已经拥有超过 80 万的开发者,8700+社区代码贡献者,覆盖业内主流算法模 型及数据集的 2000+行业资产,以及覆盖金融、制造、互联网、医疗等多个行业的企业用 户。基于盘古基础大模型和海量行业数据,华为云陆续推出了矿山、药物分子、电力、气 象、海浪等盘古行业大模型。例如,华为盘古药物分子大模型接受了超大规模的化合物表 征模型训练,预先对 17 亿个药物分子的化学结构进行了学习,并对药物分子结构进行预 测、打分,成药性预测准确率比传统方式高 20%,帮助科研人员省去大量药物设计的成本; 此外,该模型还内置了高效的分子生成器生成了 1 亿个创新的类药物小分子筛选库,结构 新颖性达 99.68%,为发现新药创造了更多可能性。
2.2 AI 垂类模型加速数据要素市场发展,推动数据流动
数据是 AI 模型的关键要素之一,AI 数据相关市场快速增长。据艾瑞统计与预测,2022 年我国 AI 基础数据服务市场规模(含数据采集与标注)为 31 亿元,受各类 AI 应用对于图 像、语音和文本数据集及定制化数据服务的需求上涨影响,2027 年相应规模可达到 79 亿 元,2022-2027 年 CAGR 达 20.6%。2022 年中国面向人工智能的数据治理市场规模约为 45 亿元,受数据平台服务、数据治理服务和 AI 应用建设的需求推动影响,在数据治理市场 中的占比不断提升,2027 年将达到 121 亿元,2022-2027 年 CAGR 为 21.7%。
垂类模型的训练需要海量优质且合法的数据资源,其中包含两方面的维度,第一是海量的 数据资源,第二是优质且合法的数据资源。 在垂类模型的训练过程中,在保证数据质量的前提下,训练数据量越大,模型的推理能力 就越强;训练数据集的丰富度和全面性越高,模型泛化能力越强;数据更新的及时性越高, 模型的实用性就越强。单一企业所拥有的数据难以同时满足质量、规模、多样性、实时性 方面的要求,使得模型性能提升存在瓶颈,需要通过数据流通补充企业所缺少的数据资源。 当前阶段,模型厂商主要通过共建生态或者数据交易两种方式获取垂类数据,百度、科大 讯飞等厂商与各行业企业建立起生态合作关系,在行业数据、模型算法上实现优势互补; Reddit4 月份宣布将对调用其 API 的公司收费,中文在线按照采集数据包的大小及数据类 别对模型厂商进行收费。
模型训练所使用的数据有一部分是来自互联网的公开数据,这些数据可能包含用户的个人 信息,这些信息可能被大模型无意中学习和记忆,并在后续的应用中泄露。例如,OpenAI 抓取了社交媒体网站 Reddit 上所有获得至少 3 个"喜欢"的帖子所链接的所有网页,以及 Reddit 帖子和相关评论,而这些链接及与之关联的个人信息在没有通知相关方获得同意 的情况下被大量抓取,存在极大的安全隐患。 AI 垂类模型方兴未艾,推动数据要素市场发展。数据要素市场打通“数据要素供给-数据 要素流通-垂直领域模型研发及应用”循环发展的产业链条,对垂类模型的应用落地具备 重要意义,数据要素市场供给提供海量丰富的训练数据,是垂类模型的基础原料,市场流 通是连接数据要素与垂类模型的枢纽,基础制度保障市场规范发展,市场监管维护市场运 行秩序,基础设施提供重要支柱。
在垂类模型的推动下,数据要素市场的新业态不断涌现。多地以数据交易所为主导,建立 数据要素与大模型的“产业联盟”,数据要素市场建设再加速。 高质量产业大数据大模型联盟聚焦高质量产业数据垂直应用。2023 年 5 月 6 日,高质量 产业大数据大模型联盟正式启动,联盟创始会员单位包括华东江苏大数据交易中心股份有 限公司、西部数据交易有限公司、苏州大数据交易服务有限公司、德阳数据交易有限公司 等 10 家单位。该联盟重点研究数据质量评估、数据价值评估、数据资产入表、数据资产 证券化和衍生产品等方向,旨在打造高质量产业大数据集,赋能垂类模型应用落地。 南海区大数据人工智能产业联盟开辟新赛道,丰富数据要素市场生态。2023 年 6 月 13 日, 广州数据交易所为发起单位,成立佛山市南海区大数据人工智能产业联盟,“一所多基地 多平台”体系架构的正式落地。南海“垂类模型+传统产业”可将难以直接交易的产业数 据转化成为数据模型产品,借助数据交易平台,充分激活大量沉淀闲置的数据资源,进一 步丰富数据要素市场生态,开辟出“垂类模型+传统产业+数据交易”的新赛道。
上海数交所启动语料数据生态创新合作伙伴计划,推动数据要素市场建设。上海数交所官 网于 7 月 7 日正式上线语料库,累计挂牌近 30 个语料数据产品,包含文本、音频、图像 等多模态,覆盖金融、交通运输和医疗等领域。针对数据质量高但开放程度低的供方,可 以通过数据交易链有效破解语料数据流通的信任问题,此外,上海数据交易所语料库还将 提供特色标签服务体系、挖掘应用场景价值、驱动稀缺数据开放流通以提高该类供方开放 数据积极性。针对开放程度高但数据质量低的机构,上海数交所语料库通过搭建专业化数 商服务渠道提高数据质量。
3.投资分析
当前,我国数据要素市场正面临从零到一的重大拐点,我们预判数据要素市场是中国未来 十年极具成长潜力的赛道,板块将持续受益政策加持和产业发展逐步验证的双重催化。 政策层面持续加持。从 2022 年 12 月 20 号国家印发《关于构建数据基础制度更好发挥数 据要素作用的意见》强调,数据基础制度建设事关国家发展和安全大局,要统筹推进数据 产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系。 北京2023年6月印发《关于更好发挥数据要素作用进一步加快发展数字经济的实施意见》 的通知,力争到 2030 年,北京市数据要素市场规模达到 2000 亿元,基本完成国家数据基 础制度先行先试工作,形成数据服务产业集聚区。 深圳 2023 年 6 月印发《深圳市数据产权登记管理暂行办法》,为规范数据产权登记行为, 保护数据要素市场参与主体的合法权益,促进数据作为生产要素开放流动和开发利用,提 供了深圳经验和模式。
上海 2023 年 6 月印发《立足数字经济新赛道推动数据要素产业创新发展行动方案(2023-2025)》指出要主动跟踪数字经济发展趋势,推动数据要素产业高质量发展。要提 “效能”,全力打造产业发展新高地,在产品供给、场景应用、数商发展等方面持续发力。 管理职能层面持续完善。今年两会期间,国家公布组建国家数据局,作为国家发展和改革 委员会管理的国家局,同时各地方交易所逐步建立和从试运逐步切换到正式运行阶段。 我们预判数据要素市场下半年有望进入实质性加速发展的重要阶段,从“土地财政”转向 “数据财政+土地财政”双轨运行,有望带来产业链巨大投资机会。
3.1 中科江南:财政、医保信息化领导者
财政信息化龙头,向多行业延伸发展。中科江南深耕财政信息化领域十余年,凭借支付电 子化和预算管理一体化两大核心业务占据行业龙头地位,近年来中科江南加快推进行业电 子化和预算云服务业务发展,依托于多年积累的电子化技术和实施经验不断拓展行业电子 化应用,通过打造电子政务产品矩阵,为各级财政部门、金融机构和行政事业单位提供信 息化管理系统解决方案。
电子凭证会计数据标准深化试点,助力财税数据要素流通。2023 年 4 月,财政部等 9 部 委联合发布《关于联合开展电子凭证会计数据标准深化试点工作的通知》,扩大试点电子 凭证的种类和开具范围以及接收端试点单位范围,推动电子凭证全流程标准化无纸化处理, 有望进一步促进业、票、财、税、档等会计数据标准化和规范化管理,从而实现财税数据 要素的高效流转和互联互通。中科江南是 8 家“电子凭证开具分发平台”之一和深化试点 服务保障单位,目前已推出国库集中支付电子凭证、基于区块链平台的医疗结算电子凭证、 商标电子印章以及会计电子证照等电子凭证产品,助力电子凭证会计数据标准化应用。 医保数据要素落地在即,医保电子凭证业务增长可期。随着医保信息化建设持续推进,医 保、商保数据有望互通并带来大量应用场景,未来医保数据要素实现或将率先开放。中科 江南电子凭证业务在医疗信息化领域不断落地,2022 年其先后开拓了国家医保局医疗电 子票据应用区块链平台及电子票据共享项目、湖北省银行端医保局医保基金业财一体化项 目、湖南医疗保险基金财务一体化管理项目等项目,为医保电子凭证业务打开增量空间。
积极开拓数据要素业务,相关数据应用服务正在广州数交所进行合规审查。作为国内领先 的智慧财政和智慧医保综合解决方案供应商,中科江南在财政及医疗垂类领域拥有丰富的 项目经验和数据积累,有望进一步围绕财税、医保等数据要素与相关行业应用场景构建数 据应用服务,不断开拓财政、会计数电票入账和医保等领域的数据要素相关业务。目前, 中科江南已成为广州数据交易所登记入库的数据经纪人和第三方专业服务机构,数据要素相关产品已经入库并登记,正在进行政策合规审查。
3.2 航天宏图:空天地一体化数据领域龙头
完善全产业链布局,构建空天地一体化数据资源体系。航天宏图是空天信息领域先行者、 卫星运营与应用服务龙头厂商,为突破自主可控数据源瓶颈和推进云服务规模化,业务模 式从空天信息产业链中下游向上游拓展,稳步推进分布式干涉雷达卫星星座和无人机产线 建设,形成“上游自主数据-中游核心平台-下游规模应用”商业模式,实现“一个星座、 一个核心平台、三条业务产品线、N 个应用场景”的全产业链布局。其中,宏图一号卫星 星座已于 2023 年 3 月 30 日完成发射并进入预定轨道,有效填补国内民用 SAR 遥感数据市 场的空白。
云化转型加速,遥感数据不断丰富。航天宏图 PIE-Engine 平台已初步形成“平台+SaaS 应用”、“软件+数据”的服务模式,2022 年新增了面向金融、农业、林业、能源和建筑工 程、智慧园区的无人机服务能力,发布了面向全国地面沉降和大型基础设施形变监测的 SAR 雷达数据 SaaS 服务,形成了 30+全国重点区域沉降监测产品并完成了 200+用户订单,。 云服务能力的持续拓展应用使得遥感数据不断丰富,截至 2022 年底,PIE-Engine 平台已 覆盖 20 多个领域,数据总量近 20PB,数据集个数达到 160 多种。 PIE+行业产品应用落地,深入挖掘数据要素价值。航天宏图 PIE+行业产品线向不同细分 行业加速渗透,2022 年在持续拓展气象海洋、生态环境、自然资源等优势行业应用的基 础上,重点提升了特种行业、应急管理等领域卫星应用服务热点市场的应用深度和广度。 此外,航天宏图 PIE+行业业务逐步接入其自主的航天(卫星星座)航空(无人机群)数 据,依托“数据+云+应用+生态”的服务模式,深入挖掘数据的应用价值,并形成行业级 一体化服务平台体系与数据产品,未来将为需求侧持续赋能。
3.3 浩瀚深度:运营商数据可视化市场领军者
网络可视化领军,全方位拓展延伸。浩瀚深度专注于互联网流量管控及数据智能化应用领 域,在海量数据获取、高速数据处理和深度信息挖掘方面拥有 20 多年的经验积累和技术 沉淀,是国内通信行业中少数能够全面实现互联网流量及数据的前端采集处理、后端智能 化应用的企业。浩瀚深度采用“以采集管理系统为基础,全方位拓展延伸”的业务发展模 式,在持续迭代升级智能采集管理系统的同时,纵向拓展各类智能化应用系统,横向延伸 开发信息安全防护类产品,各产品间形成良好的协同效应,实现网络可视化行业中全产业 链垂直一体化发展,为电信运营商等客户提供网络智能化及信息安全防护解决方案。 聚焦 DPI 技术,赋能数据采集及数据分析应用环节。“智能采集管理系统”是浩瀚深度应 用 DPI 技术实现产业化的核心产品,具备互联网流量识别、分析、管控以及数据采集功能, 也是实现流量及数据智能化应用的重要基础。浩瀚深度 DPI 技术形成了“小而精”的发展 路径,在处理性能、设备集成度、设备能耗比等方面更具优势。此外,浩瀚深度 DPI 系统串联部署于骨干网、城域网/省网、IDC 出口、互联互通等关键网络节点,能够对海量流 数据进行采集、分析与管控,在网络安全和数据安全防护领域同样大有可为。
深耕运营商市场,与中国移动合作紧密。浩瀚深度近 30 年来深耕运营商市场,其硬件 DPI 技术路径与中国移动的网络建设及技术路径适配性较好,已成为中国移动硬件 DPI 系统的 核心供应商,在中国移动总部 2018-2022 年互联网 DPI 集中采购招投标的中标总份额均超 过 50%,除了与中国移动的保持紧密合作外,浩瀚深度还于 2017 年推出了满足中国电信、 中国联通技术要求的软件 DPI 等相关产品,以进一步拓展运营商市场。目前,浩瀚深度在 运营商市场已经形成了存量设备部署优势,相关产品广泛部署于国内三大运营商的各层级 网络节点,在运营商国际出口和网间互联互通出口市占率第一。 拓展运营商数据应用场景,掘金数据要素价值。数据要素市场快速发展且算力需求高速增 长,运营商同时作为数据要素市场多环节参与者和算力网络建设主导者,数据资源规模大 且价值量高。浩瀚深度与中国移动等电信运营商客户合作多年,其核心 DPI 技术主要应用 于数据采集和数据分析环节,可以用于深入挖掘运营商数据要素价值和拓展数据应用场景, 例如帮助运营商用户和企业客户快速构建 PB 级海量数据处理平台,从而提升数据赋能的 精细化管理水平、盘活数据资源。
3.4 金山办公:国产办公软件龙头
金山办公是国内领先的办公软件和服务提供商,主要从事 WPS Office 办公软件相关产品 及服务的设计研发及销售推广。金山办公主要产品包括 WPS Office 办公软件、金山文档 等办公能力产品矩阵以及金山数字办公平台解决方案。其中 WPS Office 办公软件及金山 文档兼容 Windows、Linux、Mac OS、Android、iOS、HarmonyOS 等主流操作系统,用户 可根据自身需求在 WPS 客户端和金山文档之间灵活切换,真正实现了“端云一体”、“多屏 联动”。
把握办公软件“云+协同”发展趋势,云文档数量迅速增长。在“云+协同”办公逐步成为 办公软件领域主流趋势的背景下,金山办公于 2015 年发布 WPS+一站式云办公并提供订阅 服务,拉开云办公序幕;2018 年发布金山文档,开启协同办公征程。2022 年金山办公不 断优化产品在云和协作等跨端场景下的用户体验,引导用户持续使用云文档服务,截至 2022 年底用户通过公有云上传的云文档数量已超 1752 亿份,同比增长 35%。“云+协同”办公逐渐成为常态化需求,未来云文档数量及存储量有望延续高速增长态势。 端云一体化推进云服务功能统一,助力用户提升数据管控能力。2022 年公司完成了 WPS Office 的“端云一体化”转型,使客户端和云服务紧密结合,落地数字办公领域的云原 生解决方案,实现了在企业身份和个人身份上实现用户数据的隔离和应用功能的统一,在 企业管理和团队场景上实现文档、会议、日历的身份认证和数据打通,为组织级客户提供 全面的文档数据管理服务;同时优化云文档服务基础架构,通过分布式高可用的技术方案, 极大地提升了用户文档数据的安全性和可靠性。此外,金山办公还发布了全新的云文档管 理器,优化云盘及搜索功能、改进分享和协作机制、提升用户全端文档上云的流程体验。
3.5 深桑达 A:CEC 旗下电子云和数据要素的核心运营者
深桑达是中国电子旗下云计算和数据创新业务的核心参与厂商,承担“云计算及存储+数 据创新+数字政府与行业数字化服务+高科技产业工程服务”四项主责主业,以“云数”核 心产品技术创新为驱动,持续赋能数字政府和行业数字化转型升级。
背靠 CEC 信创生态,国资云建设核心参与者。深桑达依托中国电子 PKS 自主安全计算体系 及丰富的网信产业资源,持续打造中国电子旗下唯一云平台“中国电子云”,构筑了 IaaS、 PaaS、SaaS、SECaaS 全栈云服务能力,为党政及关键行业客户提供高安全、高性能、高 弹性的全栈分布式云及存储产品。依托对用户上云需求的深刻理解和自身 PKS 技术体系优 势,以及在政企市场积累的大量实践经验,中国电子云在国内专属云市场后来居上,其全 栈信创云应用于政府、金融、央企等数百家机构。随着信创产业规模持续扩大,中国电子 云有望凭借 CEC 网信产业的资源优势和全栈自主技术能力,成为国资云建设的核心参与者。 数据创新业务排头兵,定位于数据要素运营商。深桑达是中国电子数据创新业务的承载主 体,国内最早的数据要素化探索与实践者,在业内率先开展数据安全与数据要素化理论研 究与业务布局。深桑达定位于”数据要素运营商”,已推出了数据金库、数据要素加工交 易平台、安全可信数据空间等数据安全与数据要素化工程系列产品,并进一步形成数据产 权、流通交易、收益分配以及安全治理方面的可实际操作方案。在实践领域,深桑达积极 开展数据安全与要素化工程试点,已在武汉、郑州、德阳、大理等多个地市取得了阶段性 成果。深桑达致力于成为国际领先的数据要素运营商,当前已凭借前瞻性布局和丰富的项 目实践经验取得先发优势,未来有望持续受益于数据要素市场扩容带来的发展机遇。
3.6 易华录:CETC 旗下数据安全存储和运营的先行者
大数据产业国家队,数据要素市场开拓者。易华录由中国华录集团控股,坚持以数据湖战 略为中心,围绕超级存储和数据变现两大主线,不断深化自主可控的国产存储技术以及持 续释放海量多元的数据要素生产力。2022 年以来以“数据二十条”为代表的数据要素顶 层政策不断出台,易华录经营重点开始由数据湖建设转向数据湖及数据要素运营。易华录 核心业务主要包括政企数字化业务、数字经济基础设施业务、数据运营及服务。 蓝光存储优势显著,数据湖助力数据要素价值释放。蓝光存储是目前最有效的数据长期归 档存储方式,在数据能耗、介质寿命、数据安全性以及长期存储总体成本方面显著优于硬 盘和磁带存储,可以更好地满足海量数据的大规模存储空间需求、降低长期保存和使用数 据的能耗和成本,推动政企数据长期全量归档存储。易华录依托于自主可控且全球领先的 500GB 蓝光核心技术,2017 年独创数据湖商业模式,6 年来在全国 33 个城市落地运营数 据湖,先发优势显著,具备完整的“收-存-治-用-易”数据全生命周期服务能力,为政府 客户管理数据资产、实现数据要素优化配置提供可靠载体,截至 2022 年底已有多个数据 湖已与政府签署了数据受托存储及运营协议、数据存储购买服务协议等数据存储服务协议。
易数工厂驱动数据资产交易及变现,数据运营项目快速落地。易华录主要锚定数据登记确 权、数据交易应用、数据授权运营、数据安全监管等方向进行纵深业务拓展,持续完善基 于易数工场模式的数据资产化全链条服务。具体来说,就是对数据资源进行标准化场景运 营与受托服务运营,将其转变为高价值的、具有市场需求的数据服务,最终实现数据资产 交易与增值变现。经过 6 年持续打磨,2022 年易华录在抚州落地全国首个基于政务数据 授权运营模式的“数据银行”,且徐州、株洲、开封和抚州 4 个城市的数据湖项目公司均 获得当地政务数据治理运营授权,同时与 10+家省级大数据交易所签署合作协议。考虑到 易华录数据湖已覆盖了全国 22 个城市,未来易数工厂有望向其他城市持续复制与落地。
3.7 星环科技:国产分布式数据库和向量数据库龙头
专注于国产大数据基础软件领域,竞争力行业领先。星环科技是国内领先的大数据基础软 件开发商,经过 10 年自主研发形成了涵盖大数据与云基础平台、分布式关系型数据库、 数据开发与智能分析工具在内的完整产品矩阵,能够为金融、政府等行业客户提供覆盖数 据全生命周期的整体解决方案,赋能客户数字化转型升级。2022 年星环科技被 Gartner 评为数据中台及图数据库领域全球推荐供应商,同时入选中国数据库管理系统产品品类最多的厂商之一,凸显星环科技在数据库和数据中台等大数据基础软件领域的核心竞争力。
分布式架构成为主流,加速数据库国产化替代进程。我国数据库市场长期以来由 Oracle、 IBM DB2 为代表的国外传统集中式关系型数据库主导,然而,随着数据量的爆发式增长以 及应用负载的快速增加,传统集中式架构难以满足海量数据处理和大规模并发需求,分布 式架构则凭借安全性、扩展性、灵活性等优势成为主流的国产替代方向。数据库是信创产 业链的核心环节,也是支撑数据要素价值释放的关键基础设施,随着数据管理软件逐步由 集中式架构向分布式架构演进,国产大数据产品有望实现换道超车。 分布式数据库先行者,坚持自主研发道路。星环科技采用分布式技术体系,自主研发了高 性能分析型数据库 ArgoDB 和交易型数据库 KunDB 等分布式数据库产品,其中 ArgoDB 主要 用于构建离线数据仓库、实时数据仓库、数据集市等数据分析系统,KunDB 则适用于操作 型业务场景和高并发场景。通过不断打磨产品技术以及在实际业务场景中的持续落地实践, ArgoDB和KunDB已广泛应用于金融、政务、能源、医疗、交通等多个行业,成功替代Oracle、 IBM DB2、Teradata 等传统关系型数据库,并且实现了低成本国产化替代和业务平滑迁移。 2023 年,星环科技 ArgoDB 和 KunDB 两款数据库均通过信通院“可信数据库”评测,体现 了国产分布式数据库的优异性能。
积极布局数据要素市场,促进数据要素安全高效流通。星环科技实现了从大数据管理平台、 数据应用中间件、数据智能分析工具到数据库的全产业链布局,能够针对数据要素的价值 形成和流通过程中的不同环节提供相应的产品和解决方案。具体来看,星环科技大数据基 础平台 TDH 和分析型数据库 ArgoDB 可以进行数据归集及资源库建设;大数据开发工具 TDS 可以用于数据资产目录编制、数据标签运营、数据 API 开发和管理;智能分析工具 Sophon 可以实现海量数据的深度挖掘及安全管控。此外,星环科技基于 TDS 和 Sophon 形成了数 据要素流通工具集解决方案,围绕数据交付等环节提供数据安全防护和隐私计算能力,助 力数据要素安全流通和价值释放。
3.8 太极股份:CETC 旗下政务云基础设施承建方
数字服务国家队,自主可控主力军。太极股份是中国电科网信事业核心产业平台和自主可 控总体单位,以信创、云和数据为两大业务主线,已成为国内信创和数字政府建设领域的 领军厂商。太极股份全面布局信创基础软件产业,形成了涵盖普华操作系统、金仓数据库、 金蝶中间件、慧点办公软件在内的自主产品体系,信创产业生态日益完善;另一方面,太 极股份开创了“云+数+应用+生态”一体化服务模式,以“云+数”为基础驱动行业客户数 字化转型,已在政务、农业产业互联网、工业互联网、交通大数据等数字化应用场景落地。 国产数据库先行者,党政行业市占率领先。太极股份控股子公司人大金仓是国内成立最早 的国产数据库厂商,专注数据库领域 20 余载,具备国内领先的数据库产品、服务及解决 方案体系,同时积极构建信创产业生态,截至 2022 年底已经与 1800+家生态伙伴的 6000+ 款产品实现兼容认证,通过与重点行业用户联合制定解决方案以实现向不同行业快速推广。 目前金仓数据库已广泛应用于政务、军工、能源、金融、电信等 60+重点行业,累计装机 部署超百万套,并于 2022 年完成了多家银行国际结算、跨境支付、供应链金融等 30 余类 近 300 个系统的升级改造。根据太极股份 2022 年年报,2022 年人大金仓在电子政务、电 信、能源等重点行业市占率保持领先;根据 IDC 数据,2H2022 人大金仓在我国关系型数 据库本地部署模式市占率位居国内厂商第四。
核心产品不断更迭,保障数据要素安全畅行。人大金仓主要产品包括通用型数据库 KingbaseES、分析型数据库 KingbaseAnalyticsDB、分布式数据库 KSOne、数据同步软件 KingbaseFlySync 等。其中,KingbaseES 作为人大金仓的核心拳头产品,近年来持续迭代 升级,2022 年人大金仓发布 KingbaseES V9 全新版本,各项性能得到全面提升,并重点 增强了 KingbaseRAC 能力,为国产数据库走向更多关键领域带来新的契机;同时发布金 仓一体机 KingbaseXData,补齐了人大金仓在软硬件一体产品上的空白,进一步满足各行 业对数据库产品不同维度的需求。人大金仓成立以来专注于数据管理领域,通过技术创新 和产品迭代持续增强数据采集、存储、分析、管理等基础能力,支撑数据要素安全流通。
3.9 永信至诚:人工智能模型安全与数据安全实战化测评能力提供方
永信至诚是网络靶场和人才建设领军企业。永信至诚基于网络空间平行仿真及攻防对抗类 技术,推出了网络靶场系列产品、安全管控与蜜罐产品、安全工具类产品、安全防护系列 服务、网络安全竞赛服务和其他服务。其中,网络靶场系列产品是公司核心业务,其核心 技术为蜜罐产品奠定了技术基础;网络安全竞赛服务和线上线下培训服务作为流量入口, 积累行业化经验、储备安全人才以及提升公司影响力。
“数字风洞”产品体系开启安全测试评估专业赛道。在数据安全形势日益严峻的背景下, 测试评估已成为风险管理的关键基础环节。永信至诚基于网络靶场深厚技术及经验积累, 2022 年发布数据安全“数字风洞”产品体系,形成了全场景、全要素、全生命周期的安 全测试评估解决方案,通过全面支撑人、系统、数据等核心要素的安全测试与评估,有效 保障用户网络和数据安全,目前在军工、公安、金融等关键行业以及人工智能、数据安全 等新兴领域均得到实践验证。 秉承安全“证无”理念,实现全场景数据安全测试评估。“数字风洞”产品体系基于安全 “证无”理念和 3×3×3×(产品×服务)安全感公式,强调对人、系统、数据等进行持续 性测试评估和风险处置,从而督促和帮助系统不断迭代优化,助力网络和数据安全由“形 式合规”转向“实质合规”。此外,永信至诚参与协办 2023 数字中国创新大赛网络数据安 全赛道,结合平行仿真技术、春秋云专有云平台和“数字风洞”产品体系,打造了覆盖数 据安全、数据分析、数据算法等典型数据业务场景的测试评估演练场,在为网络和数据安 全风险“证无”的过程中提升数据安全保障能力。
3.10 英方软件:大数据灾备领域龙头
英方软件是国内数据复制与保护软件领先企业。依托自主研发的动态文件字节级复制、数 据库语义级复制和卷层块级复制三大核心底层复制技术及其他信息化技术,公司构造了 “容灾+备份+云灾备+大数据”四大数据复制产品系列,相关产品覆盖了容灾、备份、云 灾备、数据库同步、数据迁移等经典应用场景,同时也推广到了智能灾备管理、数据副本 管理、数据流管理、大数据收集分发、数据跟随等更多应用领域。 核心技术达到行业先进水平,国内市场占有率高。英方软件的动态文件字节级复制技术可 以保证各种复杂生产环境下的数据一致性,支持每秒 300MB 以上的高压力业务生产环境, 理想状况下的同步性能达到毫秒级,可以持续数据保护及业务的高可用切换;数据库语义 级复制技术每秒可处理 100MB 的在线日志,支持实时同步状态下的数据对比和数据修复, 保证数据一致性;卷层块级复制技术可通过调整块的大小适应不同业务场景,提升系统性 能、优化资源使用效率。根据 IDC 统计数据,公司在 2021 年国内数据复制与保护的纯软 件市场排名第三,市占率 10.2%,仅次于 Veritas、Dell Technologies(市占率分别为 16.0%、13.1%),在国内第三方数据复制软件企业中排名第一。
灾备充当企业数据安全守门员,产品向数据采集领域延伸。备份数据往往作为企业数据安 全的最后一道防线,公司的高可用灾备管理软件 i2Availability 可跨平台、跨系统、跨 存储使用,远距离传输时对网络带宽要求低,广泛支持各类应用和数据库的容灾高可用保 护;持续数据保护与恢复软件 i2CDP 可在任意时间点恢复,恢复颗粒度达到微秒级;备份 和云灾备产品组合可实现字节级实时备份且任意时间点恢复,具有较强的兼容性,广泛支 持各类应用程序和数据库的数据保护,支持国产操作系统。公司数据复制产品的应用领域 逐渐向数据采集方向延伸,基于大数据产品 i2Active 和 i2Stream 可构建大数据实时汇聚 平台,帮助客户在多中心、云平台等异构环境下,将各个业务中的应用数据进行低延时的 采集、转换、融合、分发和监控等。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。