(报告出品方/作者:东方证券,浦俊懿,陈超,谢忱,杜云飞)
一、数据库是信创基础软件重要部分
1.1、数据库的定义、分类与发展
数据库是信创基础软件的重要部分,是信息系统的核心。我国信息技术软硬件底层标准、架构、 产品、以及生态体系被外国把控,这些上游核心技术遭遇美国 “卡脖子”严重影响了我国关键科 技和产业的发展。近年来,中央出台多项信创相关的支持政策、指导意见,大力支持信创产业持 续发展,努力实现国产替代。数据库作为信息系统的核心,在计算机中承担着承上启下的重要作 用,向下调用硬件基础资源,向上是各种应用软件的重要支撑引擎。随着我国数据经济的快速发 展,数据量的快速提升,作为信创基础软件重要环节的国产数据库将迎来重大机遇。
通常意义上的数据库即指数据库系统(Database System,简称 DBS),由数据库、数据库管 理系统、应用程序、管理员四部分组成。数据库是指长期存储在计算机内,有组织的、可共享的 大量数据集合,包括数字、文字、图像、音频、视频等数据形式。数据库管理系统(Database Management System,简称 DBMS)是位于用户和操作系统之间的一层数据管理软件,负责对数 据进行组织和存储管理,以及获取和维护数据。应用程序是为了提高数据库系统管理能力的软件 补充,并可以使数据管理过程更加直观和友好,它负责连接、访问和管理 DBMS 中存储的数据, 允许用户进行增删改减。管理员主要职责是运维和管理数据库管理系统。其中,DBMS 是数据库 系统的基础和核心。
数据库管理系统作为能够使用户定义、创建、维护和控制访问数据库的软件系统,其数据结构和 技术架构不断发展,呈现关系型数据库和非关系型数据库并存、集中式与分布式并存的技术现状。 1) 按数据结构分为关系型和非关系型:关系型数据库又称为 SQL 数据库,它建立在关系模型 基础上,取代了层次模型和网络模型,以行和列的形式存储数据,以便于用户理解。常见的 Oracle、MySQL 等数据库均为关系型数据库。非关系型数据库也称作 NoSQL 数据库,采用 不同于关系数据“行列”组织的数据模型,数据结构类型复杂,是对传统关系型数据库的拓 展与补充。搜索引擎数据库就属于非关系型数据库。
2) 按技术架构分为集中式与分布式:集中式数据库指将数据集中在一台机器上进行处理的数据 库,分布式则可以通过多个中小机型联机来实现大型集中数据库类似的性能。随着数据量的 增长以及高并发读写需求的提升,由于集中式数据库的横向扩展能力受根本性的架构限制, 难以满足业务瞬时高峰性能。因此,采用了分布式计算等新技术的分布式数据库通过将大规 模负载分散到多个节点上,满足了计算量大、数据量大、读取数据和运算数据更快的需求, 相较于集中式数据库具有更好的可扩展性。
数据库的发展历经前关系型、关系型和后关系型三大阶段,现阶段的技术路线更加多元化。前关 系型阶段数据库的数据模型主要基于网状模型和层次模型,该类产品在当时较好地解决了数据集中存储和共享的问题,但在数据抽象程度和独立性上存在明显不足。1970年 IBM公司提出关系模 型,开启了数据库的关系型阶段,DB2、Oracle、MySQL 等现今仍在广泛应用的关系型数据库都 是在该阶段诞生的,目前仍是数据库市场的主流。进入 21 世纪后不久,随着数据规模的爆炸式增 长、数据结构的灵活多变、数据应用的不断深化,传统数据库逐渐无法满足更丰富的应用需求, 出现了基于各种新兴技术的新型数据库,数据库产业迎来快速发展。
我国数据库在海外巨头垄断中艰难发展。在 2000 年以前,我国的数据库市场基本被海外产品 Oracle、SQL Server 和 DB2 垄断。21 世纪头十年是我国第一批国产数据库的萌芽期,人大金仓、 达梦数据、南大通用和神舟通用等国产数据库通过依托科研院校成立,在 21 世纪初期海外巨头的 垄断下艰难生长。2009 年后,随着互联网技术的发展和去“IOE”浪潮的兴起,拉开了数据库国 产替代的序幕。2014 年至今,国产数据库进入了百花齐放的时代,伴随着信创政策的推动,国产 数据库迎来了发展曙光。
1.2、搜索引擎数据库简介
搜索引擎数据库是一类专门用于数据内容搜索的 NoSQL 数据库,是非结构化大数据处理分析领 域中重要的基础支撑软件。在数据爆炸式增长的当下,非结构化数据已经成为了全球数据量的主 要来源。非结构化数据的数据结构复杂,没有预定义的数据模型,不方便用传统的数据库二维逻 辑来表现,但却蕴含着巨量的价值信息,如何高效地处理分析非结构化数据是数据库领域面临的 机遇和挑战。在这样的时代背景下,搜索引擎数据库的概念逐渐发展起来。它可以提供快速的数据检索服务,是搜索引擎系统的底层支撑。而常见的谷歌、百度等是搜索引擎,它的概念更加宽 泛,不仅涵盖搜索引擎数据库,还包含了爬虫、网页权重计算、检索词纠错、知识图谱和个性化 推荐等模块。
搜索引擎数据库的应用广泛。搜索引擎数据库早期又称全文数据库、非结构化数据库等,因为搜 索引擎数据库诞生的初期主要是解决关系型数据库中长文本检索效率低下的问题而诞生的,但是 随着技术的发展,目前的搜索引擎数据库已经不仅仅可以处理长文本数据,也可以处理常见的数 值、日期等结构化数据,还可以处理 IP、地理位置信息、图片、音视频等非结构化数据。凭借在 数据查询效率方面的优势,搜索引擎数据库在数据处理方面的地位越来越高,并在应用程序搜索、 网站搜索、企业搜索、智能问答、图像与语音搜索、语义搜索、业务分析和安全分析等方面有着 广泛的应用。
搜索引擎数据库伴随着搜索引擎的发展而发展。互联网上第一个真正意义的搜索引擎是由蒙特利 尔大学学生 Alan Emtage 于 1990 年开发的 Archie,开创了现代搜索引擎领域。虽然当时 World Wide Web 还未出现,但网络中文件传输已经相当频繁,而这一搜索引擎用于 FTP 服务器上的文 件。1995 年,全文检索引擎 AltaVista 推出,迅速成为当时最受欢迎的搜索引擎;同年,中国公 司易宝北信推出了全文检索数据库 TRS Database Server,随后获得了国家科技进步二等奖。
1997年 Google、2001年百度搜索引擎相继问世,Doug Cutting开发的开源全文索引引擎 Lucene 加入了 Apache 基金会,为后续多个搜索引擎数据库的诞生提供了基础,Solr、Elasticsearch 等 常用的搜索引擎数据库都是基于 Lucene 开发的。Elastic 公司于 2011 年成立,之后迅速成为全球 领先的搜索引擎数据库厂商,并于 2018 年上市。国内厂商星环科技于 2020 年发布了新一代搜索 引擎 New Search,并在 2021 年更名为 Scope。
搜索引擎数据库关注度正在提升。2022 年 11 月 17 日,中国信通院组织召开了“搜索型数据库” 技术研讨会,会议重点讨论了搜索型数据库的市场前景、技术趋势、应用场景、发展态势等议题, 专家们认为我国在搜索型数据库领域存在取得全球领先地位的可能性,同时搜索型数据库的数据 安全问题日益受到业界的关注。在信创产业发展的大背景下,我国关系型数据库的发展如火如荼, 已有多款关系型数据库产品入选了国家信创产品目录,一些产品性能已经达到国际领先水平,但 是搜索引擎数据库领域的发展仍较为滞后。随着信创政策不断推进,搜索引擎数据库作为高效处 理非结构化数据的基础软件,关注度正在逐步提升。
二、搜索引擎数据库进入发展期,有望迎来快速增长
2.1、数据库市场方兴未艾,关系型数据库仍为主流
关系型数据库占据数据库市场绝对主流,搜索引擎数据库份额较低。从全球范围来看,关系型数 据库仍是目前的主流市场。根据 DB-Engines 统计,关系型数据库流行度占比高达 71.3%,非关 系型数据库仅为 28.7%,其中搜索引擎数据库占 4.6%。所有数据库综合排名 TOP10 中有 7 家为 关系型数据库。从中国范围来看,目前我国数据库产品数量分布呈现以关系型为主,非关系型数 据库为辅的局面。根据墨天轮统计,截至 2022 年 11 月,我国数据库产品中有关系型数据库 159 个,非关系型数据库 87 个,其中流行度排名前十的全部是关系型数据库。国产搜索引擎数据库产 品仅有两款。
数据库管理系统市场持续加快增长。据 Gartner 报告显示,2021 年全球数据库管理系统市场收入 接近 800 亿美元,相比 2020 年增加了 145 亿美元,同比增速达到 22.3%,2020 年这个数字是 19%,市场规模正在加速增长。据统计,数据库管理系统市场已连续六年实现增长,自2017年以 来,市场规模已经翻了一倍,四年的年复合增长率达到 19.7%。
非关系型数据库市场规模增速显著高于整体市场,收入占比逐年提升,互联网厂商占据较大市场 份额。据 Gartner 统计,2021 年全球非关系型数据库管理系统的收入达到 148 亿美元,约占全球 数据库管理系统总收入的 19%,在 2017 年时该占比仅为 8%,五年内占比也翻了一倍。其中纯非 关系型数据库管理系统厂商(Aerospike,Couchbase,Neo4j,MongoDB 等 8 家)的收入达到 23 亿美元,大部分收入仍来自于互联网厂商的非关系型数据库产品,其中亚马逊的非关系型数据 库收入达到 64 亿美元,占据非关系型数据库总收入的 43.2%,谷歌的非关系型数据库收入达到 28 亿美元,占非关系型数据库总收入的 18.6%。
中国数据库市场规模增速较快,国产化率有望提升。据中国信通院发布的《数据库发展研究报告 2021》统计,2025 年中国的数据库市场规模将达到 688 亿元,5 年年复合增长率达 23.4%。目 前,海外巨头仍占据国内数据库市场较大份额,但国产数据库经历多年沉淀,已经具备初步竞争 力。据《中国信创产业发展报告 2021》统计,2020 年数据库国产化率已达 47.4%。根据 IDC 统 计,目前华为、达梦、人大金仓、阿里云等国产数据库软件已经在市场中占有一定份额,未来随 着国产数据库技术不断提升,数据库国产化率有望进一步扩张。从行业来看,2021 年在国内数据 库市场份额中占比最高的是金融行业,达到了 20.2%,其办公系统和一般系统使用我国数据库产 品的机构数量已经超过 40%。
2.2、数据库厂商竞争日趋激烈
从全球范围来看,头部数据库厂商屹立不倒,中下游厂商竞争激烈。根据 Gartner 发布的 2011- 2021年数据库管理系统市场份额统计显示,Oracle、微软、AWS、IBM、SAP等头部传统数据库 厂商的市场排名基本稳定。近年来随着互联网的不断发展和云技术的兴起,华为、阿里、谷歌、 腾讯等互联网大厂也加入了数据库市场的竞争中,依靠自身的资源优势迅速进入了排名前列。随着数字经济快速发展以及数据量的爆发式增长,新兴数据库厂商不断涌现,中下游厂商之间的竞 争也愈发激烈,市场排名变动较为明显。
从中国范围看,新数据库产品加速涌现,头部厂商竞争仍然激烈。根据墨天轮统计,2022 年 4 月 时共有 205 个国产数据库产品参与排名,2022 年 11 月这个数字增长到了 246 个。头部数据库产 品之间的竞争也非常激烈,PingCAP 旗下的 TiDB 长期位于国产数据库榜首,其他数据库产品的 排名则变动明显。中国数据库领域暂未出现某几个厂商独大的现象。搜索引擎数据库中 Elasticsearch 占据优势地位。根据 DB-Engines 数据,2022 年 11 月共有 26 款搜索引擎数据库参与排名,Elasticsearch 自 2016 年起就一直占据榜首地位,Splunk 和 Solr 也 一直居于前三名。排名中仅有两款中国产品,一款为阿里云日志服务,排名第 19 位,另一款为日 志易,排名第 24 位。
多模数据库、人工智能、数据安全将成为未来数据库领域的发展趋势。随着数据量的爆炸式增长, 数据类型也愈发丰富多变,对数据库的能力提出了挑战,数据库技术也呈现出快速革新的趋势。 目前多模数据库、人工智能和安全能力成为了数据库领域的主要技术发展趋势。
1) 多模数据库:随着数据库发展进入后关系型阶段,数据结构也越来越多样化,半结构化、非 结构化数据占比不断提升。对于数据结构多样但是每种数据存储功能需求不高的用户来说, 不同的数据结构采用不同数据库存储的话成本较高,使用也比较繁琐。多模数据库的出现满 足了灵活的数据存储的管理需求,将各种类型的数据进行统一的管理,降低了运维和开发成 本,是未来数据库技术发展的趋势。对于搜索引擎数据库来说,多模型可能更加重要,能够 在不同的数据结构中实现高精度的搜索是搜索引擎数据库一直追求的目标;
2) 人工智能:在大数据时代,传统数据库的业务能力逐渐无法满足庞大的数据处理与分析需求, 越来越多的数据库厂商将人工智能技术融入到了数据库领域,通过 AI 来使得数据库实现计 算和存储资源的优化、异常识别、数据可视化等功能,确保数据库高效运行。在搜索引擎数 据库领域,机器学习算法也已经得到了广泛应用。Elasticsearch 中现在已经内置了机器学习 模块,可以方便地实现可视化、数据分类、异常检测等功能。
3) 安全技术:近年来数据泄露等安全事件频发,以及数据上云的趋势显著,数据库面临的安全 隐患也更加多样,对数据库的数据安全提出了挑战。在我国信创产业发展的大趋势下,数据 库的自主可控与安全更是重要的基础。基于隐私计算和区块链技术的数据库产品是近期的发 展方向,协助提升数据可信与安全。
2.3、信创加速数据库国产替代,搜索引擎数据库空间广阔
国家多项政策促进数据库行业发展,信创推动国产数据库加速替代。2018 年,中兴通讯被列入美 国实体清单后,《科技日报》总结出了 35 项被外国“卡脖子”的关键技术,数据库就是其中一项。 近年来,国家相继颁布多项政策推动数据库关键技术发展,信创政策在党政领域的陆续落地也促 进了国产数据库对国外产品的替代。目前国产替代在党政行业的实施已经初见成效,我们预计未 来国产数据库在金融、能源、教育、电信等更多行业将加速落地,国产数据库厂商迎来重大发展 机遇。
数字化转型持续推进,搜索引擎数据库的重要性逐渐提高。在信创产业政策的推动下,国产数据 库有望快速发展,但目前国产化替代的主流仍是关系型数据库,主要用于处理结构化数据,而非 结构化数据在日常业务中占据多数,具有优异全文搜索能力的搜索引擎数据库的重要性愈发体现。随着我国数字化转型浪潮的进一步推动与数字经济的蓬勃发展,非结构化数据的占比将越来越高, 搜索引擎数据库正成为非结构化大数据处理分析领域中重要的基础支撑软件。目前国内市场上占 据主流的搜索引擎数据库仍为 Elasticsearch,亟需一款高效优秀的国产搜索引擎数据库作为国产 化替代。
Elasticsearch 安全风险加剧,搜索引擎数据库自主可控和国产化替代迫在眉睫。在过去几年内, Elasticsearch 数据泄露事件频发,甚至一个月被曝 6 次数据泄露。2019 年,2000 万条个人信息 和税务记录通过 Elasticsearch被泄露。2021年,Elasticsearch 服务器再次发生泄露,超过 8.7 亿 条记录或 147GB 个人信息数据在网上曝光。根据 Group-IB 报告显示,2021 年网络上暴露的 Elasticsearch 实例超过 10 万个,约占 2021 年暴露数据库总数的 30%。Elasticsearch 数据泄露 事件频发给国内各行业用户敲响了数据安全的警钟。同时,Elasticsearch 在 2021 年更改了其开 源协议,对其产品的许可协议增加了限制,也带来了更多的商业风险。对我国搜索引擎数据库领 域来说,自主可控和国产化替代迫在眉睫。
搜索引擎数据库市场前景广阔。我们对全球搜索引擎数据库的市场规模进行了简单测算,根据 Gartner 预测,到 2025 年全球图数据库的市场规模将达到 32 亿美元。根据 DB-Engines 数据库类 型流行度的占比,我们预计 2025 年全球搜索引擎数据库市场规模将达到 82 亿美元,整体数据库 市场规模将超过1700亿美元。在假设中国搜索引擎数据库市场占全球市场比例等于整体数据库市 场的情况下,我们预计 2025 年中国的搜索引擎数据库市场将达到 32 亿元,占全球搜索引擎数据 库市场的 5.6%。
三、重点企业分析
3.1、国外厂商
3.1.1、Elastic:搜索引擎数据库领域龙头
Elastic 是搜索引擎数据库领域的行业龙头,主要提供分布式搜索和数据分析引擎产品。Elastic 公司成立于 2012 年,主要产品为 Elastic Stack 这一集成软件平台,Elasticsearch 是其核心的分 布式搜索和分析引擎,也可用视作为分布式的搜索分析型数据库。Elasticsearch 可以适用于所有 数据类型,能够应用到日志监测、基础架构监测、企业搜索、时序数据处理等多种场景,但由于 其核心能力在快速搜索与分析上,Elasticsearch 并不适合于 OLTP 及事务支持等场景。尽管成立 时间较晚,但经过多年的快速发展,目前 Elasticsearch 已经成为了搜索引擎数据库领域的龙头企 业,在 DB-Engines 的搜索引擎数据库排名上,自 2016 年起就长期处于榜首位置。根据 Elastic的招股书,截至 2018 年 7 月,Elastic 产品下载量已经超过 3.5 亿次,拥有 5500 多家企业客户, 开源社区用户超过 10 万人。
Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎,是 Elastic 产品栈的核心。 Elasticsearch 完美封装了 Lucene 核心库,设计了友好的 RESTful API,开发者无需过多关注底层 机制便可以轻松使用。Elasticsearch 具有良好的可扩展性,提供了分布式的实时文件存储和搜索, 并且支持通过HTTP网络接口交互。Elasticsearch 与名为Logstash 的数据收集和日志解析引擎以 及名为 Kibana的分析和可视化平台一起作为一个名为Elastic Stack 的集成解决方案推出,帮助 客户完成从日志收集、数据搜索到可视化分析的全流程。
开源与商业化相结合的商业模式带来了收入的高速增长。Elastic 公司采用开源分发策略,用户可 以免费下载基础版本的软件,同时也向企业客户提供不同功能权限级别的 SaaS 形式订阅方案。 2021 年,公司营业收入达到 8.62 亿美元,2016-2021 年的年复合增长率达到了 57.8%。从收入 分布占比情况来看,订阅制的收入占比逐年提升,2021 年达到了 83.7%。
3.1.2、Solr:企业级开源搜索平台
Apache Solr 是一个完全开源的企业级搜索平台。Solr 于 2006 年首次发布到开源,长期位于 DBEngines 搜索引擎数据库流行度排名榜首,直到近年来才被 Elasticsearch 和 Splunk 超越,目前位 于 DB-Engines 搜索引擎数据库流行度第三名。Solr 和 Elasticsearch 一样基于 Apache Lucene 实 现,具有高度的可扩展性,在企业中被广泛应用。
Solr 相比 Elasticsearch 定制能力更强。Solr 提供了标准的 XML、JSON 和 HTTP 开放接口,开 发者可以轻松用 Solr 构建应用程序。Solr 具有高度的可扩展性和容错能力,通过 Apache Zookeeper,开发者可以方便地进行复制、分发和自动运维。由于 Solr 是完全开源的项目,开发 者可以任意修改代码来进行插件扩展。而 Elasticsearch 由于背靠商业公司,其功能丰富度和完善 度要更贴合业界,相比于 Solr 更注重于开箱即用,很多功能内置在软件中而不需要开发者进行配 置定义,针对不同场景和行业提供的解决方案也更加丰富,学习成本和运维成本显著低于 Solr。
3.2、国内厂商
3.2.1、拓尔思:以自然语言处理为核心的非结构化大数据搜索
拓尔思是国内人工智能和大数据技术服务提供商,是语义智能领域的领导者。拓尔思成立于1993 年,2011 年在创业板上市,以“语义智能+”为主要发展战略,业务覆盖三大板块:内容安全和 互联网空间治理、数字政府和数据智能,应用于党政、金融、能源、互联网传媒等多个行业与市场。公司作为国内拥有自主核心技术的人工智能及大数据产品服务的领导者,在多个细分领域具 有领先地位和品牌优势,目前公司的产品已经服务于 8000 多家机构客户,受到市场广泛认可。
拓尔思是国内中文搜索引擎技术的开创者。在拓尔思成立之初,公司就推出了第一代全文检索系 统 TRS Database Server,并服务于新华社、专利出版社等用户。随着大数据时代的到来,拓尔 思又顺势推出了功能更加强大的 TRS Hybase 海贝大数据管理系统,服务用户已覆盖公安大数据、 媒体大数据、政府大数据以及专利大数据等众多细分行业。目前,海贝大数据管理系统已经推出 了 9.0 版本,吸收了拓尔思在信息检索和 NLP 领域多年的技术积累,从内核到系统完全国产自研, 保证了搜索引擎的自主可控与高效安全。
海贝大数据管理系统更适配中国应用场景,相比海外开源搜索引擎数据库产品性能更优。海贝自 带的 TRS 分词器实现了单一分词器覆盖全语种分词,支持中日韩等方块文字和英法德等拉丁语系, 还支持藏文、蒙文、维文等少数民族语言,应用场景全面。公司基于其优势所在的自然语言处理技术,实现了非结构化数据一体化的搜索引擎,利用基于深度学习的基因编码计算技术,实现了 图像和文本一起混合搜索,进一步提高了搜索精度。相比于 Elasticsearch 等海外开源同类产品, 海贝的应用功能集成度更高,能够支撑上层应用的快速开发,直接提供更多企业级特性,便于客 户上手。
并且,作为拓尔思自主研发的产品,海贝大数据管理系统的安全性更高,易用性更强。 目前,海贝已经实现对国内主流信创厂商相关产品的全面兼容适配,可适用于基于信创软硬件平 台搭建的完全自主可控的大数据应用,全面保障大数据系统的安全性。
3.2.2、星环科技:国产大数据基础软件领导者
星环科技拥有自主研发的成熟大数据软件替代方案,是国家信创基础软件领域的重要参与者。星 环科技成立于 2013 年,一直专注于大数据基础软件平台的研发与推广。公司成立初期以 Hadoop 和 Spark 框架为基础,在发展过程中不断进行自主研发,目前已经自主研发了大数据与云基础平 台、分布式关系型数据库、数据开发与智能分析工具的软件产品全系列产品,为企业数字化转型 提供了真正的国产数字底座,完全满足国家信创自主可控的安全要求,并在很多产品的性能上要 领先于国外主流产品。
Transwarp Scope 是星环科技自主研发的分布式搜索引擎,能提供比 Elasticsearch 更强的扩展 性与可靠性。随着数据量的剧增以及性能要求的不断提高,Elasticsearch 在集群扩展性、可靠性、 数据读写性能、以及数据恢复速度等方面越来越难以满足用户的需求。星环科技自主研发了 Scope 这一分布式搜索引擎产品,提供 PB 级海量数据的交互式多维检索分析服务,能够实现高 可靠、高扩展性的全文搜索与灵活查询。并且能够兼容常用的 Elasticsearch 读写接口,拥有比 Elasticsearch 更强的数据一致性和可靠性。为了更方便地实现国产替代,星环科技还提供了从 Elasticsearch 平滑迁移到 Scope 的方案,保障国产替代能够顺利进行。
Scope 是为数不多的国产搜索引擎数据库产品之一。目前国内主流的数据库产品仍是关系型数据 库,非关系型数据库虽然正处于蓬勃发展期,但搜索引擎数据库受到的关注仍较少。根据墨天轮 统计,截至 2022 年 11 月,国产搜索引擎数据库仅有两款产品,其中之一就是 Scope。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】