大数据行业分析报告怎么写:附行业现状及未来发展趋势分析
一、大数据时代,分布式和云原生架构的数据平台产品是未来发展趋势
数据存储、处理和分析的需求正向海量、异构、多源的方向发展。1980年代至2000 年代,由于数据采集方式有限,计算机处理的数据类型以结构化数据为主,组织和 存储都具有规律性,且数据处理量较小,可以用集中式的关系型数据库来管理。2000 年之后,随着互联网技术的快速发展,采集的数据量呈现出爆发式增长;此外,随 着各类传感器采集数量的不断增加,图像、视频、文档等非结构化数据大量增加。 对于海量、异构和多源的数据处理任务,基于单台硬件设备的集中式数据库难以满 足,而基于计算集群的分式和云原生的数据平台产品很好的满足了这一需求,是未 来的发展趋势。接下来,我们从需求变化导致软件架构升的角度,探讨数据库软 件及大数据平台产品未来的发展趋势。
大数据平台是集合了数据库在内的、围绕数据全生命周期需求的平台软件产品。大 数据平台是集数据接入、处理、存储、查询检索、分析挖掘等为一体的产品。相较 于数据库产品,其新增了批/流计算引擎、资源调配器、中间件以及应用接口等更多 组件,其模块组件更加接近于系统底层、功能更加综合。大数据平台不仅可以搭载 多个数据库,还为更多类型的数据库开发提供了通用的软件环境,降低了新品开发 的边际成本。以星环科技的大数据基础平台TDH的升迭代历程为例,其在完成了 底层关键组件自研开发的基础上,从早期的宽表数据库和图数据库,快速拓展开发 了时序数据库、关系型数据库、文档数据库等多个类型的数据库。其在TDH的基础 上,各类数据库新品和分析工具的开发边际成本逐渐降低,业务边界可拓展性更强。
数据处理的类型由结构化数据向多源异构数据转变,非关系型数据库快速兴起。 2000年之前,处理的数据类型以结构化为主,基本遵循标准的数据格式与长度规范, 其主要以二维表结构的关系型数据库进行存储和管理。21世纪初,随着互联网技术 的发展,包括办应用档、XML、HTML、图片和音频、视频信息等非结构化数据的 处理需求快速增加,关系型数据库在非结构化数据的处理分析和读写性能的局限性 逐渐凸显。非关系型数据库针对不同场景需求,采用不同的数据存储模型,更好的 满足了多种类型数据的处理需求。两种数据库在数据完整性、扩展性、读写可用性、 产品成熟性和架构灵活性等方面各有侧重,其适用的场景也有所不同,具体来看:
1. 关系型数据库:关系型数据库是建立在二维表的集合。每个表有先进的名字,表 的每一行代表了一组值之间的联系,表的每一列是对实体属性的描述,要求存储 值的类型相同。一方面,关系型数据库在数据读取、写入等基础操作性能稳定, 另一方面,其可以存储和处理的数据类型较为单一。 2. 非关系型(NoSQL)数据库:非关系型数据库没有严格的数据规范,可根据需 要灵活存储方式。目前主流的非关系型存储模型包括键值对存储、宽列式存储、 文档型存储和图形存储等。由于非关系型数据库不要求数据的强一致性,其可覆 盖的应用场景更加广泛。
按架构分类,数据库可以分为集中式、分布式和云原生三个类型的数据库: 1. 集中式数据库:所有的数据存储、计算和分析任务都在一个XXX处理系统上完成, 其存储和处理的数据类型较为单一,以关系型数据为主,即以行和列的表单形式 存储数据。相关代表性产品包括Oracle、IBM DB2和微软的SQL Server。 2. 分布式数据库:通过多个节点的形式组成计算集群,根据数据处理需求将计算、 内存、带宽等资源合理地分配在不同规模的节点上进行处理,从而实现对海量异 构数据的处理。相关代表性产品包括星环科技的ArgoDB和KunDB。 3. 云原生数据库:在计算集群的基础上,该架构实现了计算和存储资源在硬件层面 的分离,解决了计算资源和存储资源扩容节奏不同步的问题,进一步提升资源利 用效率。相关代表性产品包括Snowflake的Data Cloud。
数据处理量向海量数据转变,分布式和云原生的数据平台产品是未来发展趋势。 2000年后,随着数据采集手段的增多,数据处理量快速增长。在数据处理量由TB 别提升至PB(约1000TB)别时,采用一个XXX处理系统的集中式架构的数据库 产品存在存储空间不足、高并发响应速度慢以及等问题。而基于计算集群的分布式 数据库,具有单机硬件性能要求低、扩容便捷等优势。云原生的数据库在计算集群 的基础上,实现了计算资源和存储资源的精细化管理,进一步提升资源利用率。基 于并行协作、资源共享的理念构建的分布式和云原生架构的数据库,在海量数据处 理的整体性能上较集中式架构数据库都有较大提升。
(一)集中式数据库对海量数据的存储空间有限,扩展性不够
1. 技术架构 1980-2000年,数据管理软件主要为集中式架构的数据库产品,即所有的数据存储、 计算和分析任务都在一个XXX处理系统上完成。一般而言,XXX处理系统是一台各 方面性能较普通服务器要高的大型机。集中式数据库从技术角度具有以下特点: (1) 运行稳定可靠:集中式数据库发展时间较长,在数据读写的稳定性、运行维 护方面具有较为成熟的方案,稳健可靠,维护简单。 (2) 安全性较高:集中式数据库具有隔离性的特点,即多个并发事务之间实现了 相互隔离,各资源独立,数据安全性更高。
(3) 依赖于特定的硬件:集中式数据库构建在高端硬件基础上(例如IBM大型机和 EMC磁盘阵列),对硬件专用性要求很高,导致部署成本较高。 (4) 存储容量有限:一般集中式架构的硬件存储容量在GB别,容量的提升只能 依靠提升设备自身的性能,其存在TB别的存储量上限,难以应对超过TB别, 达到PB别海量数据的存储。 (5) 可扩展性较弱:在少数模式下(例如RAC、PureScare),计算节点可扩展, 但多个计算节点之间数据共享性能较差,并且可扩展的计算节点数量有限。
总体而言,集中式数据库适合处理数据量和访问量都比较平稳、比较有限的场景, 比较难应对数据量和访问量快速增长的场景。在访问的并发量超过单点设备所能提 供的存储容量上限或者计算能力上限时,剧烈的资源争抢会导致整体性能显著下降。此外,集中式数据库无法满足多源数据融合处理的需求。在集中式数据库处理数据 类型较为单一的情况下,其应用场景被限定在某一点状数据问题的解决上。未来, 随着企业客户业务复杂度的不断提升,多源数据融合处理和分析已成为主要需求。 集中式架构下的数据库产品难以满足这一需求。
2. 商业模式。集中式数据库的的商业模式分为两种,一种是数据库产品搭载于小型机或高性能服 务器上软硬件一体销售的模式,另一种是软件授权一次性收费。
(1) 软硬一体销售:以IBM为例,其搭载了DB2数据库产品的大型机采取软硬一体 的形式向客户交付。以Z16为代表的大型机在硬件层面对数据库产品进行了优化 和适配,对于运行DB2数据库的应用实例、批处理应用程序有更好的表现。这 一模式下,软硬件耦合度较高,在软硬件优化适配的基础上,数据处理的整体 性能表现较好,但价格较为昂贵。 (2) 软件一次性授权模式:以Oracle为例,其在2000年初主要商业模式是根据搭 载于服务器上不同的数据库产品功能,收取一次性的软件授权费。Oracle的数 据库主要采取两种方式计算软件授权费用。在用户数量较小的场景,Oracle确 定单位用户License的价格,根据客户数量来收费。在用户量较大的场景,Oracle 根据搭载服务器的CPU核心数量来进行收费。
3. 下游需求。数据类型较为单一,数据应用场景较为简单。2000年前,由于数据采集手段有限, 数据库存储和处理的数据类型较为单一,以关系型数据为主。集中式数据库的数据 存储系统较为固定,一般一套数据库软件只能存储一种类型的数据类型。集中式数 据库处理的数据类型是以关系型数据为主,即以行和列的形式存储数据,可理解为 二维表格模型。客户更加关注的是数据应用层面,即如何利用数据对其业务进行有 效赋能。企业客户对数据应用的需求主要有两个场景:
(1) 在交易型场景中,企业客户需要针对业务变化信息对数据库进行实时的增、 删、改等编辑操作,对数据处理的准确性和实时性有较高的要求。例如,银行的交 易型数据库需要具备针对上万条存款、贷款、转账等业务数据进行同时、准确、快 速处理的能力。交易型场景对于数据处理的需求呈现出小批量、高并发和快速反馈 的特点。 (2) 在分析型场景中,企业客户需要针对业务进展和运营情况进行长期趋势的分 析,用于风险预警和辅助决策。分析型场景对于数据处理的需求呈现出大批量、多 数据源以及多维分析的特点。
集中式数据库在数据读取、写入等基础操作性能稳定。针对于以上两个场景的业务 需求,集中式数据库主要围绕以下四个性能进行优化和升:1.原子性:为避免数 据库中的操作执行出现纠纷,单个事务不可切割。例如,在转账操作中,要么全部 执行,要么失败后恢复到前一状态。2.一致性:在事务开始之前和结束后,数据库 的完整性约束没有被破坏。这要求写入数据库的数据需符合预设规则,包括信息的 精确度、串联性以及可自发性完成的工作。3.隔离性:隔离性可以防止多个事务并 发执行时由于交叉执行而导致数据的不一致的问题。4.持久性:为防止意外事故(例 如断电)导致数据丢失,数据库保证事务对其所作的修改被保存。
总体而言,集中式数据库技术发展历史较长,以Oracle和IBM厂商为代表的产品性能 较为稳定。我们认为集中式数据库性能成熟稳定的特点在小数据量,频繁读取的应 用场景中具有相对优势。
4. 生态变化。国产的集中式数据库与海外产品在性能和生态建设上仍有一定差距。与Oracle和 IBM较为成熟的数据库产品相比,国内数据库产品发展时间较短,且部分产品依赖 开源代码开发,性能、安全性仍有一定差距。国内较多的集中式数据库产品是基于 开源数据库开发的。MySQL、PostgreSQL是较为流行的开源数据库,其为集中式 架构的数据库开发提供了较多资源。MySQL自发布后被依次移植到各个平台,提供 完整的SQL支持并被逐步拓展至事务处理,于2000年正式采用GPL协议开源。经过 近40年的发展历程中,MySQL经过不断被推广优化,其生态发展已成熟完善,应用 基本覆盖所有行业。目前国内外众多数据库产品以MySQL开源版本开发,包括阿里、 腾讯、华为开发的数据库产品。
在传统关系型数据库领域,Oracle市占率较高,国产数据库厂商持续追赶。根据IDC 的数据,2021年在本地部署模式下中国关系型数据库市场,Oracle占市场份额为22%, 市占率排名第一。Oracle由于起步早,市场份额较大,在使用习惯、功能模块及数 据库语言方面已经对下游客户有较强粘性。因此,在国产替代过程中,较大比例的 客户需从Oracle等海外厂商的产品迁移到国产数据库。基于对数据迁移安全、稳定、 低成本的要求,国产数据库对Oracle等海外数据库各项功能的兼容性是下游客户重要考量点。以达梦数据为代表的国产厂商的产品在兼具自主可控和数据平滑迁移的 能力基础上,实现了部分场景对Oracle等海外厂商的国产替代。2019-2021年,达梦 数据营收分别为3.0亿元、4.5亿元和7.4亿元,CAGR为56.5%,其中XXX政领域客户 贡献营收占比分别为62.0%、67.9%和63.3%。
集中式架构的数据库在大数据场景的应用空间有限。随着数据采集手段的不断丰富, 数据处理量快速增长,数据类型不断增多,对集中式数据库技术层面的挑战不断增 大。在大数据的应用场景中,集中式架构的数据库对海量、异构、多源数据的处理 能力不足,应用空间有限。我们认为,未来数据处理的增量市场以海量数据为主, 而集中式架构在这方面技术能力不足,相关公司的成长性和可成长的市场空间有限。 2011-2021年,Oracle营收增速CAGR为1.3%。未来,基于数据读写等基础操作较 为稳定的特点,集中式数据库公司在数据类型单一、数据处理量有限的场景中,仍 具有一定的应用空间。
(二)分布式数据平台较好的满足了海量、多源、异构的数据处理需求
1. 技术架构。分布式大数据平台是将在物理上分散的多个数据库连接组成一个逻辑上统一的系统 平台。其基本结构包括一个控制节点和多个数据与计算节点,控制节点负责整体资 源的调度、分配,数据与计算节点负责具体数据的存储、处理和分析。基于并行协 作、资源共享的理念构建的分布式架构,在数据计算和存储的整体性能上较集中式 架构都有较大提升。具体来看,分布式大数据平台具有以下特点: (1) 单机硬件性能要求较低,扩容成本较低:在分布式架构中,软件平台可搭载 于普通的PC服务器上,摆脱了对小型机、高端存储等高价格硬件设备的依赖。 由于搭载数据平台软件的单台服务器的成本较低,在计算集群中节点扩容的成 本较低。
(2) 海量数据处理能力,扩容过程便捷:分布式架构采用多台服务器,存储和计 算资源天然比集中式架构的单台服务器要多。此外,在数据快速增加接近存储 资源和计算资源上限的情况下,用户将新服务器加入到数据库集群中,业务数 据可自动迁移到新机器上,系统自动的将流量切到新服务器上,扩容过程快速 便捷。 (3) 多源数据融合处理和分析能力:不同节点的数据平台上可存储和计算不同类 型的数据,各节点数据处理和分析的结果汇总和集成在控制节点后可实现多种 类型数据的融合分析,较好的满足了业务复杂度高带来的多源数据的处理需求。 (4) 维护难度较大,成本较高:分布式架构采用的计算集群的模式需部署多台服 务器,大大增加了运行和维护的复杂度,从而增加了运营维护成本。
随着数据量和应用负载的快速增加,分布式大数据平台已成为数据处理和分析的主 流产品。
分布式大数据平台相较于数据库产品在功能组件上有所增多。分布式大数据平台是 一个集数据接入、处理、存储、查询检索、分析挖掘等为一体的平台。而数据库是 按照数据结构来组织、存储和管理数据的仓库。相较于数据库产品,大数据平台新 增了批/流计算引擎、资源调配器、中间件以及应用接口等更多组件。以Hadoop分 布式计算平台为例,其中x常用的三大组件分别为: (1) 分布式存储系统 HDFS(Hadoop Distributed File System):其是架在本地 机器硬盘上的分布式文件系统,在物理上采用分块存储(block)的方式存储文 件,针对海量数据提供高可靠性、高扩展性和高吞吐率的数据存储服务。
(2) 分布式计算框架 MapReduce:该计算框架将海量数据分拆为单个节点可以处 理的规模,分段统计后,再将统计结果合并到x终的结果中,完成大规模的数 据处理。其具有易于编程、高容错性和高扩展性等优点。 (3) 分布式资源管理框架 YARN(Yet Another Resource Management):在系 统接收到具体数据处理的请求后,控制节点通过YARN的资源管理器将计算、 内存、带宽等资源分配给各计算与数据节点;YARN在各子节点中实时监控任 务执行和资源使用情况,并根据使用效率随时调配全局资源。
2. 商业模式。分布式大数据平台的收费模式分为两种,一种是根据节点数量采用软件一次性收费 的模式,另一种是根据节点数量的使用时长,采用按年/按月的订阅制收费模式。 (1) 按节点数量,软件一次性授权模式:以星环科技为例,公司根据每个节点上 安装的不同的软件产品类型,收取一次性的软件授权费。2021年,其数据云平 台TDC的均价为4.7万元/节点,分布式分析型数据库ArgoDB的均价为7.4万元/ 节点。在这一模式下,客户采购产品的驱动力主要在于持续扩容和满足更复杂 业务功能的需求。
(2) 按节点数量的使用时长,订阅制收费模式:以Cloudera公司为例,公司的核 心产品大数据平台CDH,其根据部署节点的数量按月/按年收费。在这种模式下, 即便客户没有采购服务器的需求,客户只要在使用数据库就需要支付费用。因 此,订阅制的收费模式下,客户粘性更高,营收的可持续性更强,客户价值被 挖掘的空间更大。
在分布式大数据平台上公有云的环境下,按使用量订阅制收费的商业模式正在兴起。 以MongoDB为例,MongoDB Enterprise Advanced分布式数据平台主要以本地化部 署的方式根据部署节点的数量按月/按年收费,其在2016年开发了MongoDB Atlas产 品,已搭载于亚马逊AWS、微软Azure和谷歌云上提供“Database-as-a-service” 公有云服务。具体服务包括搜索服务、弹性存储、数据可视化以及开发工具SDK等。 收费方式根据客户对计算和存储资源的使用量来进行收费。相较于按时长的订阅制 模式,按照实际使用量的订阅制收费模式,在更加精准的满足业务需求的同时给客 户带来更好的成本节省,性价比更高。2017-2021年,MongoDB Atlas-related业务 营收CAGR为158.6%,远高于公司整体营收CAGR 51.5%。MongoDB Atlas-related 业务由2017年占营收比重6.6%快速提升至2021年占营收比重56.3%。
3. 下游需求。数据量快速增长,海量数据的计算和存储对软件产品提出更高要求。海量数据的处 理涉及事务高并发、多模型融合以及多方数据安全协作等技术难题,对数据平台软 件从性能上提出了更高要求。在数据处理量由TB别提升至PB(约1000TB)别 时,采用一个XXX处理系统的集中式架构的数据库产品存在存储空间不足、高并发 响应速度慢以及等问题。与之相比,基于计算集群的分布式架构,在数据计算和存 储的整体性能上都有较大提升,更好的满足了海量数据的处理需求。
多数据模型的融合分析处理是数据平台产品未来发展的方向。随着数据采集手段的 不断丰富以及业务复杂度的增加,不同类型的数据存在被处理和分析的需求。关系 型数据库在处理结构化数据时具备的一致性、隔离性等原则难以应用在日志、音频、 图片、文档等半结构化和非结构化的处理过程中。常见的非结构化数据包括: (1) 键值数据:数据库通过键-值(Key-Value)的方式来组织数据存储,其中键是 先进的标识符。用户只需输入单个键,系统即可返回其对应的先进值,通过这 种方式大大提升了数据的读写速度。该类型数据可应用于Web应用程序和绘画、 内存中的数据缓存以及购物车等场景。
(2) 宽表数据:数据库以行键先进标识表中的列,其一行中包含大量动态列,可 以理解为二维的键值数据,在部分列操作、数据压缩和数据过滤过程中有很好 的效果。该数据类型可应用于时间序列、历史记录以及地理信息等场景的处理。 (3) 文档数据:以JSON、BSON、XML等文档格式存储和组织数据库。由于文档 没有一致的格式,因此其具有至关的数据模型、动态灵活的架构以及横向可扩 展的优势。该数据类型可应用于内容管理、目录和日志文件的管理场景中。 (4) 图数据:图结构的数据主要是通过节点、边、标签和属性等方式来存储数据,较好的模拟了现实世界中具有复杂关系的实体,具有敏捷、可扩展性和高性能 的特征,可应用于社交网络、知识图谱以及搜索引擎等场景中。
分布式数据库较好的满足多源、异构的数据处理需求。在异构的分布式数据库中, 不同的节点可采用不同的数据模型、数据管理工具、操作系统和硬件。各子节点通 过应用程序接口、全局模式和联邦计算等方式实现不同数据类型的信息共享及融合 分析。
4. 生态变化。 Hadoop是Apache软件基金会下的开源分布式计算平台项目,实现在计算集群的环 境中对海量数据进行分布式计算。2003年由谷歌发起至2006年正式引入Apache基 金会成为独立的软件开发至今,其已经经历了近二十年的发展历程。Hadoop的生态 已发展成熟,国内外众多大数据平台产品都是基于Hadoop的开源代码开发的,包括 Cloudera公司的CDH、阿里云EMR、华为FusionInsight、新华三DataEngine等产品。 其开发人员也将自研的代码向Hadoop项目共享。目前,Hadoop的代码提交次数超 万次,代码数量超过百万行。Hadoop已成长为海内外知名度较高的大数据开源项目。
相较于集中式数据库,我国在分布式数据库领域与海外厂商的性能、生态方面的差 距较小。从技术演进角度而言,我国分布式架构技术与海外公司发展历史相当。基 于Hadoop等开源生态,国产分布式数据库快速开发和迭代,且在金融、公共部门、 能源等行业商业化落地过程中持续打磨产品性能。我们认为,未来,在重点行业对 数据处理和共享环节提出安全可靠,自主可控等高要求的背景下,国产分布式数据 库产品有望迎来发展机遇,实现市场份额的快速扩大。
国产厂商纷纷推出分布式大数据平台产品,提升大数据处理的综合能力。除了分布 式数据库以外,国产厂商还开发了包括计算引擎、分析工具等组件在内的分布式大 数据平台。相较于自研的数据库产品,大数据平台产品的定位更为综合。国产厂商围绕数据接入、处理、存储、查询检索、分析挖掘等数据全生命周期提供更加综合 的功能。各厂商的大数据平台主要是在Hadoop为主的开源技术的基础上,进行了不 同程度的自研开发。我们认为,采用开源技术比例较高的大数据平台产品,其功能 同质化较强,产品竞争力较弱;未来自研技术是保持产品竞争力的核心因素。
(三)云原生数据平台实现了数据计算和存储资源的弹性管理
1. 技术架构。云原生架构通过计算和存储分离,大大提升了资源利用效率。基于Hadoop开源技术 的分布式架构在硬件层面的计算和存储资源是耦合,在集群扩容时,同一个节点中 的计算和存储资源是同比例增加的。然而企业在计算和存储资源上的扩展需求往往 并不同步:计算资源通常仅需在负载高峰期进行扩展,而存储资源的扩展一般是长 期、线性的过程。企业无法按需独立扩展计算和存储资源,必然带来资源的浪费。 而云原生的数据平台可以做到计算资源和存储资源在硬件层面分离,支持计算、存 储节点单独扩容,实现资源更加精细化的管理。具体来看:
(1) 存算分离有效提升资源利用率:计算和存储资源在硬件层面实现分离,解决 了计算和存储资源扩容节奏不同步的问题。在数据交互、分析、安全等模块与 容器等底层架构适配的基础上,云原生架构的资源调度更具弹性,对资源的动 态管理更加敏捷、精细。 (2) 应用接口函数化,降低开发和应用的复杂度:云原生架构将各类数据应用资 源封装成各种服务,例如数据统计、流程处理、机器学习等能力封装成函数接 口,供用户使用。用户根据实际业务需要,调用部分功能组件即实现目标功能, 有效降低开发和应用的复杂度。云原生架构使得客户可以更加专注于业务本身, 而无需关注部署和运维,大大提升了应用开发效率。
(3) 应用轻量化,减少应用负载。云原生架构将非业务功能从SDK中分离出来放 入独立进程,并利用容器共享资源的特性将其下沉至基础设施。非业务资源的 解耦分离使得应用负载大幅减负,使得应用资源更加集中于业务逻辑本身。
2. 商业模式。云原生数据库基于公有云的计算和存储资源,按照实际资源使用量收费。以 Snowflake为例,其推出的云上数据仓库Data Cloud根据用户使用虚拟仓库的数量和 时间的长短进行收费,存储则是按每个月的TP单独计费。这种收费模式的出发点就 是利于云计算的无限扩展能力,以x小成本为客户解决建立数仓的任务,让客户只 为实际使用的资源付费。我们认为,该商业模式根据客户对计算和存储资源的使用 量来进行收费,在更加精准的满足业务需求的同时给客户带来更好的成本节省,性 价比更高。
3. 下游需求。在分布式数据库基本满足海量、多源、异构数据处理的基础上,用户对数据库的可 获得性、易用性和安全性提出了更高要求。随着云计算的普遍应用,基于公有云部 署的数据库为客户节省了硬件采购、安装部署及调试运维等操作,大大降低了用户 使用数据处理工具的门槛。通过存算分离、应用接口函数化及轻量化等架构和功能 的改造,云原生的数据库减少非业务上的资源消耗,使得用户可以更加集中于业务 本身。此外,由于数据不能实现跨云传输,下游客户往往集中选择某一家云厂商存 储数据。以Snowflake为代表的第三方数据库公司在搭载了AWS、谷歌云和微软 Azure等多个云平台的情况下,实现了多云的数据共享,满足了全球性跨国公司不同 地域的业务运营和监管的要求。
4. 生态变化。Kubernetes开源技术给云原生相关技术开发提供丰富资源。Kubernetes是继 Google内部大规模使用Cgroups容器技术后的容器管理方式,为现代云原生奠定生态基石。自2014年成立起,Kubernetes项目将从API到容器运行的每一层都为开发者留出了可扩展的插件机制,项目得以快速发展;2015年,Google、Redhat及微软等大型云计算厂商共同成立CNCF云原生基金会,托管Kubernetes开源项目,云原生生态加速演进。经过多年的发展,以容器为基础编排对象逐渐丰富延展至虚拟机、函数和众多含API、可编程、可抽象成资源的对象,Kubernetes为核心的云原生技术栈也在应用场景广泛推广。目前,已有超过百家公司开发和使用Kubernetes开源技术,国内腾讯云、阿里云均是基于其生态打造的云原生产品。
(四)技术和商业模式创新驱动大数据行业新旧更迭
随着数据处理需求由单一数据类型、有限量的数据向海量、异构、多源的数据变化, 技术架构由集中式向分布式升,再向云原生演进。在这一过程中,引领技术革新 和商业模式创新的公司快速成长,而固守陈旧技术和商业模式的公司成长动力不足。
集中式数据库公司成长动力不足。集中式架构的数据库对大数据的处理能力不足, 应用空间有限,相关公司近年来的增长动力不足。以Teradata为例,其基于集中式 架构的MPP数据库对于海量数据的处理能力有限。Teradata有较大比例营收来自于 咨询服务以及一体机等定制化硬件的销售,其在商业化落地过程中存在硬件价格昂 贵、产品品类单一以及技术服务占比较多等问题。近年来,公司商业模式逐步转向 基于公有云的SaaS服务,但其转变的节奏较慢。公司技术和商业模式落后于同行, 其营收规模呈现出下降的趋势。Teradata的营收由2011年的23.6亿美元下降到2021 年的19.2亿美元;2011-2021年,Teradata的营收增速CAGR为-2.1%。
分布式架构的大数据技术持续迭代,创新产品商业化落地驱动公司高成长。随着数 据量和应用负载的快速增加,近年来分布式大数据平台已成为数据处理和分析的主 流产品,相关公司快速增长。部分科技初创公司针对于大数据应用的新兴场景,开发出的分布式数据库取得了比较好的商业化落地效果。MongoDB针对于文档信息开 发的分布式数据库解决了文档数据冗余度较大、存储空间浪费以及运维困难的问题, 在各行业中获得了广泛应用。2018-2021年,MongoDB营收CAGR为48.5%。Elastic 针对于各大网站的搜索需求,提供分布式实时全文搜索及分析工具,在互联网行业 中得到了广泛应用。2018-2021年,Elastic营收CAGR为47.0%。
云原生架构实现了在技术和商业模式两个维度上的创新,引领未来发展趋势。在大 数据行业,Snowflake是较早实现云原生技术的公司,在2014年上AWS上推出存储 和分析服务,2018年在微软Azure、2019年在谷歌云上开始提供服务。Snowflake 在实现多云环境下,计算和存储分离的云原生技术具有较强优势。其通过解决数据 存储位置不一致、查询/反馈时间不同步、通信传输延迟等问题,实现了多云平台的 快速数据联通和共享。
此外,其推出的根据计算和存储资源使用量来收费的商业模 式给云计算厂商和用户都带来了较好的成本节省,有效提升了资源的使用率。技术 和商业模式两方面的创新驱动了Snowflake公司的高增长。Snowflake的营收由2018 年的9667万美元快速成长到2021年的12.2亿美元;2018-2021年,Snowflake的营 收CAGR为132.8%。在其引领下,在美国的第三方数据库公司上云已是大势所趋。
二、数据库厂商与云计算公司竞合关系的差异与变化
中美软件上云环境不同,造成了数据库技术发展和商业化落地上的差异。在美国, 数据平台公司推出的基于公有云的数据平台产品快速落地,包括Snowflake的Data Cloud,Cloudera的CDP以及MongoDB的Atalas。而与之相比,中国的数据平台类 软件公有云上云率不高,主要以私有云或本地建设的方式部署。我们认为,其主要 原因在于中美上云环境不同。在美国,在数据隐私保护相关法律更为健全的情况下, 经过多年市场培育,下游客户已形成按使用时长付费习惯。在中国,国企、央企和 金融机构等对于数据安全有较高要求,大型企业对公有云的接受度不高,订阅制付 费模式的市场培育不成熟。接下来,我们通过对比中美公有云上云环境,来分析中 国数据平台市场商业化落地的发展趋势。
(一)美国公有云SaaS服务较为普及,第三方数据库公司借云兴起
美国软件上云率较高,SaaS服务覆盖面广阔。美国SaaS公司起步早,市场培育时 间较长。2000年初,以Salesforce为代表的美国公司首创并持续推广SaaS服务模式, 充分发挥了订阅制模式的用户粘性强、长期价值高、维护成本低等优势。此外,美 国通过立法的方式为云计算行业提供了比较好的外部环境。2011-2015年,美国陆 续通过了《电子通信隐私法案》、《网络安全信息共享法案》等,为用户隐私和信 息安全提供法律保障。在这种背景下,包括数据库在内的应用软件基于公有云提供 SaaS服务在美国快速渗透。根据Statista的数据,2020年,美国SaaS行业市场规模 为920亿欧元;与之相比,中国SaaS行业市场规模为40亿欧元。根据Lakta的数据, 2022年,美国SaaS公司数量为1.7万个,中国SaaS公司数量为702个。
充分利用云厂商的IaaS资源,第三方数据库厂商推出的SaaS服务实现了合作双赢。 Snowflake公司于2015年推出的数据仓库产品搭载于亚马逊AWS上,开创了数据库 商业化落地的新模式。从亚马逊的角度,用户在使用Snowflake数据仓库产品时,也 使用了AWS的存储资源,可以导流较多的客户,拓宽了客户覆盖面。Snowflake的客户数量由2018的948个增长到2021年的5944个,CAGR为84.4%。从Snowflake 的角度,公司不仅可以通过AWS快速推广云原生的数据仓库产品实现快速成长,还 节省了数据平台中存储组件的开发成本。Snowflake的营收由2018年的9667万美元 增长到2021年的12.2亿美元,CAGR为132.5%。通过这样的方式,第三方数据库公 司和云计算厂商形成了双赢的合作模式。在美国,数据库产品上云已是大势所趋。
海外云厂商对独立第三方公司持有较为开放的态度。海外的云计算厂商专注于IaaS 层算力资源利用的提升和优化,在其基础上的SaaS服务,采取部分自研,部分开放 接口给第三方应用软件公司共同开发。引入多方合作伙伴,集思广益,共同开发的 生态构建的理念在海外云计算厂商中较为普及。2022年,亚马逊AWS给合作伙伴开 放的Marketplace平台提供了65个品类,超过1.2万个软件,订阅用户超过200万个, 活跃用户达到了32.5万。这些软件来自全球超过2000个软件供应商、260多家数据 供应商以及900多家咨询合作伙伴。数据库作为重要的基础类软件,各云计算公司积 引入包括Snowflake Data Cloud、Cloudera CDP以及MongoDB Atalas等第三方 数据库产品。
亚马逊AWS、谷歌云和微软Azure已成为数据库厂商上云的主要平台。第三方数据 库公司通过Marketplace给云计算厂商导流客户,提高营收规模的效果较为明显,在 这种情况下,开放了Marketplace的海外的云计算厂商已占据云数据库较高的市场份 额。阿里云由于其有一定比例的海外云服务业务,开放了Marketplace给第三方数据 库公司入驻,但入驻的数据库公司数量和规模较小。 中美上云环境的不同,中国云计算厂商给第三方厂商开放的云市场合作力度有限。 国内的云计算厂商提供的公有云服务主要面向国内市场。国内公有云市场存在大型 企业采用SaaS服务的意愿不高,上云的中小企业持续付费能力有限以及客户定制化 需求较多等问题。我们认为,由于中美公有云上云环境的不同,中国的第三方数据 库厂商入驻公有云平台后能够给云厂商导流的客户数量有限、规模较小。
(二)中国数据库市场公有云上云率较低,短期内仍以本地部署为主
在中国市场,应用软件公有云上云率较低,SaaS服务渗透率较低。根据IDC的数 据,2021年,全球云计算市场按不同类型分类,SaaS服务占比为61.0%。根据中国 信通院的数据,2021年,我国的SaaS服务占云计算整体市场比例为17.0%。我们认 为,在中国,基于公有云提供应用软件的SaaS服务面临以下困境: 1. 大型企业采用SaaS服务的意愿不高:国企、央企以及金融机构的业务普遍涉及 敏感数据,对数据安全具有较高要求,考虑数据安全的权重高于由于公有云部署 带来的成本节省。虽然我国对数据安全保护有出台相关法规,但是仍缺少实施细 节和强制性要求。2015年,我国颁布了《国务院关于促进云计算创新发展培育 信息产业新业态的意见》,强调了云计算产业发展中用户隐私数据的安全保障。 但是关于数据安全保障的实施细节并未做详细规定。
2. 选择上云的中小企业持续付费能力有限:根据海比研究院的数据,2021年,我 国SaaS服务的客单价分布中,年付费5-10万的中型企业占比达27%,5万以下小 微企业占比达32%。选择SaaS服务的企业客户以制造业、互联网和软件行业的 中小企业为主,其持续付费的能力和意愿有限。3. 客户定制化需求较多:从云厂商的角度,SaaS模式的优势在于其是基于标准化 产品提供的在线服务来节省维护和交付的成本。但国内的下游客户的个性化需求 较为普遍。SaaS厂商常因辅助客户落地而被迫提升成本,亦或是在不能满足客 户个性化需求时,导致客户流失。 基于以上因素,我们认为在国内的市场环境,数据库和数据平台通过公有云部署提 供SaaS服务仍需要市场培育、产品打磨以及产业链的协作整合。短期内,私有云或 本地化部署仍然是国内数据库和数据平台产品部署的主要方式。
互联网、公共部门、金融三大领域对大数据处理和分析的需求较高。从分行业需求来看,互联网应用中产生的多源、海量数据的处理需求占比较大。此外,在公共部门、金融等领域数字化转型升过程中,围绕数据存储、计算和运维的需求快速增长,用户对数据平台等软件产品采购预算增加的趋势逐渐明确。另一方面,公共部门、金融等行业基于对数据安全考虑,对于IT基础设施公有云部署的接受度较低。我们认为,短期内,公共部门、金融、工业、医疗等国内企业客户对数据库和数据平台产品的部署方式仍以私有云或本地化的方式为主。
云计算公司采用部分自研,部分托管开源数据库的方式提供数据库服务。MySQL、 PostgreSQL、HBase等开源数据库的源代码对外开放,给云计算厂商提供了丰富的 开发资源。云计算公司在自研数据库产品的过程中较多参考了开源数据库的代码和 组件。例如,华为参考了MySQL、Cassandra以及Influx的源代码,修改开源软件中 的部分模块后推出自研的GaussDB,大大减少了开发成本和周期。此外,云计算公 司通过将开源数据库托管于云平台上的方式,拓展产品品类和客户覆盖面。我们认 为,开源数据库虽然给云计算公司节省了开发成本、拓宽客户覆盖面,但在易用性、 配套能力以及版本更新方面存在一定缺陷。云计算厂商基于开源数据库开发和托管 的数据库产品,难以满足公共部门、金融机构以及国企等客户对于数据安全可靠、 快速响应以及个性化定制的需求。
数据库开源协议存在收紧的趋势。近年来,由于云数据库托管服务扩张,企业客户 逐渐流向了云厂商的数据库平台,导致开源社区活跃度下降,对开源生态造成了较 大影响。在这种背景下,较多的开源数据库收紧了开源协议,限制其开源代码的商 业化。部分开源数据库修改为更严格的许可协议限制商业化,部分企业对其提供的 免费版本的开源数据库进行收费。例如,自2021年1月起,Cloudera推出的CDH 6.3.3 版本开始即只有收费版本,没有免费版本。我们认为,数据库开源协议收紧对于普 遍采用开源数据库研发或托管产品的云计算厂商或造成一定影响。云计算厂商的数 据库产品在迭代升、运营维护以及兼容适配方面或存在成本上升的可能。
在中国市场,云计算厂商持续开发迭代自研的数据库,与第三方数据库公司竞争大 于合作。国内公有云市场存在大型企业采用SaaS服务的意愿不高,上云的中小企业 持续付费能力有限等问题。这导致了第三方数据库厂商入驻公有云平台后能够给云 厂商导流的客户数量有限、规模较小。云厂商与第三方数据库公司合作的意愿不高。 另一方面,云计算公司持续研发投入,其云原生、湖仓一体等前沿技术持续进步。 凭借其在云计算基础设施、应用生态、用户渠道等方面的优势,云计算公司的数据 库产品在各场景中快速落地,线下市场的营收规模快速增长。我们认为,目前在国 内以私有云和本地化部署方式主导的数据库市场,云计算公司与第三方数据库公司 相互竞争大于合作互补。
第三方数据库厂商技术原创性更强,产品布局更广阔。以互联网和服务器厂商为代 表的大型科技公司,其大数据平台主要基于开源的底层技术,通过不同程度的优化, 在软件应用层面增加了部分自研模块。与之相比,以星环科技为代表的第三方数据 库公司在开源技术的基础上,对数据存储层、计算引擎层、编译器层、资源管理层 等核心功能进行了重构,基本实现底层技术的自主研发。截止2021年11月,星环科 技核心产品大数据基础平台TDH代码自主率为74%;截止2022年5月,分布式分析 型数据库产品ArgoDB的代码自主化率为91%。我们认为,星环科技的大数据产品自 研占比较高,更加满足在部分场景自主可控、安全可靠的要求。此外,星环科技的 技术原创性更强,自研的组件和产品更加丰富,下游应用场景覆盖面更广。
大型科技公司占市场份额较大,星环科技持续追赶。在国内大数据平台软件市场, 与华为云、阿里云等公司相比,星环科技整体经营规模较小。大型科技公司资本优 势明显,产品布局较为全面,可以组合多种数字化软硬件产品向客户进行销售。其 中,云厂商可以公有云服务业务为核心,协同其客户资源网络,带动大数据等业务 的开拓。传统ICT厂商通过为金融、XXX等大型客户提供信息化数字化的整体解决方 案,积累了一定的客户资源。星环科技虽然规模较小,但发展速度较快,2018-2021 年,星环科技营收CAGR为43.1%。
根据IDC的数据,在中国大数据平台软件的市场份额排名中,2020年星环科技排名 第4;2021年上半年星环科技排名第7。2021年上半年,星环科技排名下滑的主要原 因是其在第四季度确认的收入占比较高,而云计算厂商的数据平台产品收入有一定 比例是通过公有云SaaS模式实现的,营收在全年的分布较为平均。2019-2021年,星环科技第四季度营收占全年营收比例分别为41.4%、60.7%和58.5%。
(三)中国大数据产业商业化落地未来发展趋势展望
云计算公司各领域生态持续拓展,与第三方公司合作潜力较大。随着云计算公司业 务覆盖面的拓宽以及产品线的延长,其在各个技术应用领域的专注度不及独立第三 方公司。因此,各个云厂商积寻求各领域的合作伙伴。例如,腾讯打造的云市场 生态,旨在各领域寻找与自身能力合作互补的厂商共同促进商业化落地。我们认为, 若第三方数据库公司的产品具有足够的竞争力,可以实现对相关软硬件基础设施的 连带销售效果,云计算公司与其实现资源互补、产业合作的可能性将大大增加。2020 年5月,星环科技与华为正式签署备忘录,围绕星环大数据平台与华为海量数据存储 进行联合解决方案开发、市场培育和产业推进,共建数据基础设施。
国内第三方数据库公司已入驻云平台。2022年6月,分布式数据库公司PingCAP与 阿里云达成合作,其云数据库TiDB正式上线阿里云心选商城。TiDB基于分布式架构, 具备高并发处理、融合分析及兼容MySQL开源协议的特性,已应用于全球超过2000 家企业。云数据库TiDB是PingCAP与阿里云双方联合,进行深度集成和性能优化推 出的产品,实现了集群快速部署、便捷扩容,为用户提供便捷、弹性的数据存储和 计算服务。我们认为,随着国内第三方数据库公司产品影响力的持续扩大,其下游 客户规模快速增长,其上云后给云计算厂商带来的客户导流效果有望增强。海外云 计算厂商与第三方数据库公司结合优势资源,实现合作共赢的模式有望在国内展开。
部分第三方数据库公司已具备上公有云的技术条件。从技术角度,国内第三方数据 库公司已在云原生架构领域具备一定的技术积累。星环科技开发的TDC产品是基于 容器技术的数据云平台,其可通过纳管IaaS主流平台为上层PaaS及用户提供数据湖、 数据仓库、搜索引擎、实时计算、数据科学平台、交易数据库等服务,满足客户对 数据平台的多租户、弹性可扩展和使用灵活性的要求。我们认为,部分第三方数据 库公司已具备上公有云的技术条件,未来,若其与云计算公司在商业化落地方面形 成资源互补、达成合作共识,则第三方数据库上云的商业化进程有望快速落地。
三、星环科技
(一)技术原创性强,产品自主可控,与国产生态适配性强
公司专注于大数据领域,技术原创性强,产品矩阵完整。公司成立于2013年,其核 心研发团队曾任职于英特尔,在英特尔基于Apache Hadoop 1.x技术研发开源的 Hadoop发行版产品,是行业中较早探索、研发大数据技术的团队。在具有一定技术 积累的基础上,公司通过自研大数据技术逐步取代开源技术,经过多年的发展,软 件产品自主率行业领先。截止2021年11月,其核心产品大数据基础平台TDH代码自 主率为74%。此外,相较于数据库产品,公司开发的大数据平台产品的定位更为综 合。面向数据接入、处理、存储、查询检索、分析挖掘等全生命周期,公司已形成 大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品 矩阵,产品在金融、能源、电信、交通等行业广泛应用。
公司大数据产品在开源技术的基础上进行了较大比例的自研开发,技术壁垒较高。 公司在开源技术的基础上,进行了较大比例的自研开发工作,其大数据产品在高并 发事务处理、多模型融合分析以及多方数据安全协作等方面具有较高的技术壁垒。 公司对开源技术的核心组件实现了自研替换,包括YARN资源调度组件、Storm流处理组件以及HDFS分布式存储管理系统。公司自研的大数据平台产品采用分布式、云 原生等技术,不仅在逐渐替代传统的关系型数据库产品,而且在部分应用场景中实 现了对Cloudera和Oracle等海外公司数据库产品的国产替代。
公司的大数据和数据库产品与国产软硬件基础平台产品有较强的适配性。公司完成 了和多个国产硬件平台的适配,支持在一个集群内允许多个不同的硬件架构(如X86 架构和国产鲲鹏、飞腾、龙芯等架构)混合部署,能够更好的让用户实现逐步的国 产化替代进程。分布式分析型数据库ArgoDB已经完成和飞腾、鲲鹏等国产硬件及麒麟、UOS 等国产操作系统的深度适配。分布式交易型数据库KunDB支持X86与各种 国产芯片架构,以及CentOS、RedHat、UOS、麒麟等国内外主流的操作系统,能 够运行在异构CPU架构以及多种操作系统混合部署的集群环境中。我们认为,公司 在国产软硬件生态的适配性具有相对优势,预计将受益于金融、电信等行业信息系 统的国产替代进程。
公司的大数据产品较好满足公共部门数字化转型的需求。随着公共部门数字化转型 的深化,政务数据体系存在统筹管理机制不健全、供需对接不顺畅、共享应用不充 分、标准规范不统一、安全保障不完善等问题。2022年9月,国务院印发了《全国 一体化政务大数据体系建设指南》,提出了加强数据汇聚融合、共享开放和开发利 用的要求。我们认为,公司的大数据平台产品具备的多源异构数据融合分析能力较 好的满足了政务数据融合联通的需求,未来有望受益于政务大数据体系建设。公司 在政务数据平台领域已具有一定项目经验。例如,公司给上海市大数据资源平台提 供的数据云平台TDC产品支撑全市数据的归集,为各类数据治理工作提供多样化存 储和计算能力,保障对外服务的时效性、可靠性,提升上层数据应用的安全性。
公司营收快速增长,金融和公共部门行业客户贡献营收较大。公司营收由2018年的 1.1亿元增长至2021年的3.3亿元,CAGR为43.1%。在金融、公共部门和能源等行业 数字化转型的需求旺盛的背景下,公司推出的大数据基础平台TDH、数据云平台TDC 等产品较好的满足了海量、异构、多源数据处理和分析的需求,相应产品在各行业 快速渗透,带动营收快速增长。2022年前三季度,公司营收1.7亿元,同比增加24.8%。 分行业来看,2021年,金融和公共部门客户贡献营收分别为1.4亿元和9232万元, 占营收比重分别为42.6%和27.9%。
1. 在金融领域,公司不仅提供数据仓库、数据分析等常用的大数据产品扩大客户覆 盖面,还拓展了智能风控、隐私计算等业务,深度挖掘客户价值。公司已覆盖监 管机构、交易所、银行、证券公司等金融机构。2021年,金融领域客户贡献营收同比增长35.8%。 2. 在公共部门领域,公司的大数据产品有效推动数据基础设施的构建,满足了政务 信息化、民生服务、社会治理、市场监管等相关应用需求。2021年,公共部门 领域客户贡献营收同比增长54.8%。 3. 此外,在能源领域,公司大数据产品在XXX电网、南网集团等公司落地,推动其 数字化转型。2021年,能源领域客户贡献营收3552万元,同比增长36.7%,占 营收比重为10.7%。
公司已在多个行业实现了国产替代。相较于海外竞品,公司在技术架构、SQL兼容 性、存储管理系统方面实现了较大的技术进步,对Oracle、Elastic以及Cloudera等 公司的大数据产品实现了国产替代。公司的大数据基础平台TDH、分布式分析型数 据库ArgoDB以及智能分析工具Sophon已在金融、能源、制造、交通等多个行业实 现了关键信息系统的国产替代。2019-2021年,公司具有国产替代功能相关软件产 品收入分别为1.1亿元、1.3亿元和1.8亿元,占总营收比重59.4%、42.4%和42.2%。
(二)大数据基础平台是营收主力,标准化软件产品授权占比有所提升
大数据基础平台业务是营收主力,产品交付以软件授权为主。在数字化基础设施建 设过程中,公司主要为客户提供数字化基础设施底层、中间层的基础软件和技术服 务,支持客户进行数字化转型。公司具体主要提供以下产品和服务:1. 大数据基础 软件业务包括大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工 具等标准软件及配套技术服务,以软件产品授权的方式交付为主,毛利率较高。2021 年,该业务营收2.6亿元,同比增长18.4%,占营收比重为79.9%。2. 应用与解决方 案,主要针对具体应用场景,提供大数据存储、处理以及分析等相关场景下的咨询 及定制开发等服务的解决方案。3. 此外,公司根据客户及项目需求销售少量第三方 软件、硬件等其他业务。
公司的大数据基础平台产品主要按照节点收费。在分布式架构中,一个计算节点一 般对应一台服务器。在软件产品授权模式下,公司的大数据基础软件主要按照节点 数量收费。大数据基础平台TDH作为公司成熟的产品品类,功能全面,性能优异, 其销售量较大且呈现逐年增长的趋势。2021年,TDH销售节点数量为5416个,同比 增长40.7%;TDH均价1.43万元/节点,较2020年的单价也有所增长。相较于TDH, 其他产品的单节点均价更高,但销量仍处于爬坡过程中。2021年,TDC、TDS、Sophon、 ArgoDB和KunDB的单节点均价分别为4.7万元、1.9万元、7.3万元、7.4万元和4.1 万元。公司在金融、公共部门、能源等领域已经具有一定的用户粘性。我们认为, 单价更高的软件产品有望实现在老客户中的拓展销售,从而提升单客户价值。
2021年,公司软件产品授权收入占总营收比重有所提升。2021年,公司软件产品授 权收入为1.2亿元,同比增长61.4%,占营收比重为35.9%。2019-2021年,公司软 件产品授权及配套服务业务占营收比重分别为49.6%、30.5%和20.7%。我们认为, 公司产品在商业化落地过程中,偏定制化的配套服务占比正逐渐减少,标准化软件 产品交付的营收占比有望持续提升。
公司软件产品及技术服务业务毛利率逐年上升。软件产品授权过程基本只涉及产品 安装和交付,不涉及技术服务,因此其毛利率较高。2019-2021年,软件产品授权 毛利率分别为96.9%、97.2%和97.3%。此外,随着软件产品标准化程度及客户IT技 术水平逐渐提高,公司提供的安装服务成本逐年下降。2019-2021年,软件产品授 权及配套服务毛利率分别为51.8%、58.1%和61.4%,呈现出逐年提升的趋势。总体 而言,随着标准化软件产品占总营收比重逐渐提升,公司的软件产品及技术服务业 务毛利率逐年上升。2019-2021年,软件产品及技术服务业务毛利率分别为64.4%、 66.3%和71.8%。
(三)营收现阶段以大数据平台各组件为主,数据库营收快速增长
公司现阶段的营收来源以大数据计算引擎、分析组件为主。公司各软件品类中,大 数据基础平台TDH占总营收比例较大。分拆来看,其各组件中实现营收较多的以关 系型分析引擎Inceptor、实时流计算引擎Slipstream以及科学计算平台Sophon Discover等组件为主,而宽表数据库Hyperbase、图数据库StellarDB等数据库产品 实现营收占比较低。我们认为,计算引擎、分析组件等大数据平台关键核心组件是 公司过去的研发重点。经过多年迭代,核心组件的性能已具有较强竞争力,是营收 主力。
公司大数据平台代码自主化率较高,技术原创性更强,自研组件品类丰富。公司在 开源技术的基础上,对数据存储层、计算引擎层、编译器层、资源管理层等核心功能进行了重构,基本实现底层技术的自主研发。根据工信部电子五所出具的《代码 扫描测试报告》,截止2021年11月,其核心产品大数据基础平台TDH代码自主率为 74%;截止2022年5月,数据云平台TDC代码自主率为73%。我们认为,相较于国 内外厂商,公司的大数据产品自研占比较高,更加满足在部分场景自主可控、安全 可靠的要求。此外,公司的技术原创性更强,自研的组件和产品更加丰富,下游应 用场景覆盖面更广。
TDH、ArgoDB和Sophon等产品已实现部分场景的国产替代。TDH和ArgoDB产品 不仅凭借分布式架构的优势对传统数据库Oracle、IBM DB2以及Teradata等传统数 据库实现了较好的替代,还以较高的性价比和安全性实现了Ealstic Search、CDP等 海外分布式架构数据产品的替代。此外,公司开发的智能分析工具Sophon自2014 年至今持续迭代,其内置的分布式统计算法、机器学习算法可实现在大数据集上高 校的复杂统计和预测性分析,对于海外智能统计分析工具SAS有较好的替换效果。 目前,公司的大数据基础平台TDH、分布式分析型数据库ArgoDB以及智能分析工具 Sophon已在金融、能源、制造、交通等多个行业实现了关键信息系统的国产替代。
公司数据库营收快速增长,占总营收比重持续提升。在软件产品授权模式下,2021 年,公司的宽表数据库Hyperbase、搜索型数据库Scope、分析型数据库ArgoDB、 图数据库StellarDB和交易型数据库KunDB分别实现营收1036万元、1030万元、839 万元709万元和101万元。各数据库产品虽然营收规模较小,但其增速较快。 2019-2021年,在软件产品授权模式下,公司数据库产品实现的营收分别为1644万 元、2332万元和3716万元,营收CAGR为50.3%。我们认为,公司的研发采取自底 向上、由核心到应用的策略,在底层核心组件实现较大比例自研的情况下,未来有 望向各数据库研发投入更多资源。各类数据库产品功能不断完善、性能持续提升, 其实现的营收有望保持快速增长趋势。
公司分布式数据库产品代码自主化率较高,在国产替代方面更具优势。根据工信部 电子五所出具的《代码扫描测试报告》,截止2022年2月,交易型数据库KunDB代 码自主率为74.3%;截止2022年5月,分析型数据库ArgoDB代码自主率为90.6%。 我们认为,公司的数据库产品自研占比较高,更加满足在部分场景自主可控、安全 可靠的要求,在对海外产品进行国产替代过程中具有相对优势。2021年3月,XXX XXX机关XXX采购中心发布关于XXXXXX机关2021年数据库软件协议供货采购项目 成交公告,公司ArgoDB和KunDB已入围数据库管理系统供应商名单。
公司的宽表数据库Hyperbase、图数据库StellarDB等非关系型数据库推出时间早、 迭代时间久,具有较强的竞争力,营收规模相对较大。公司的关系型数据库ArgoDB 和KunDB分别于2018、2019年推出,其升迭代时间较短。此外,在分布式关系型 数据库领域,华为的GaussDB、阿里云的OceanBase通过自研开发,持续迭代,已 具备一定技术积累。云计算公司凭借软硬件基础设施的综合能力以及公有云部署的 优势,其关系型数据库已在多个行业、多个场景广泛落地。因此,我们预计,公司 的关系型数据库产品ArgoDB和KunDB预计将面临比非关系型数据库领域更大的竞 争压力。
(四)从海外对标公司看行业商业模式和估值的变化
海外大数据行业公司的业务差异与转型带来了估值变化。美国的大数据市场发展时 间较长,从传统的数据集群公司Teradata到新兴的云数据仓库Snowflake,技术、产 品以及商业模式在不断演进。各公司业务的差异性带来了其估值水平的较大差异。 云数据库采用的按照资源使用量的收费模式不仅给数据库和云厂商带来了营收的快 速增长,也驱动了传统的数据库公司积进行业务转型,将线下提供的数据库产品 上云提供SaaS服务。在业务转型过程中,各公司的估值发生了较大变化。我们选取 了不同产品类型、不同业务属性的美国5家大数据公司,从产品类型、技术架构、商 业模式的角度探讨不同公司之间估值水平的差异。
1. Teradata:公司成立于1979年,传统业务以集中式架构的MPP数据集群产品为 主,提供数据分析、数据管理系统及相关解决方案。近年来,其商业模式逐步转 向基于公有云的SaaS服务。2018年推出基于公有云的Vantage数据分析软件,随着Vantage在云端营收的持续增长,其估值水平在2022年出现了一定提升。 2019-2022年,公司PS分别为2.1倍、1.6倍、1.3倍和2.5倍。但总体而言,其集 中式架构的数据管理产品在大数据场景的应用空间有限,可成长的市场空间有限。
2. Cloudera:公司成立于2008年,早期的产品以分布式大数据平台CDH为主,根 据节点数量以订阅制按年/月收费。2018年,公司与Hortonworks公司合并,但 由于二者商业模式上的差异,导致各部门业务线并未实现较好的融合。2019年, 公司推出基于公有云的CDP产品,按照使用量收费。2021年10月,公司以53亿 美元被收购后,从纳斯达克退市。公司的估值不仅受业务模式的影响,还受到兼 并收购的负面影响。2019-2021年,公司PS分别为3.8倍、4.1倍、4.9倍。
3. MongoDB:公司成立于2007年,传统业务以文档数据库MongoDB Enterprise Advanced为主,收费模式以按照部署的节点数目按月收费。2016年,公司推出 MongoDB Atlas公有云数据库产品,按照使用量进行收费。Atlas订阅制实现的 营收由2018年的6024万美元(占营收比重22.6%),快速增长到2021年的4.9 亿美元(占营收比重56.3%),CAGR为101.7%。随着公司云数据库业务快速 增长,公司估值水平有较大提升。2020-2022年,公司PS分别为19.3倍、37.5 倍、39.5倍。2022年11月份,估值水平的下降与美国加息等市场宏观因素有关。
4. Elastic:公司成立于2012年,早期主要以针对各大网站的搜索需求,提供分布 式搜索型数据库,提供实时全文搜索及分析服务。公司于2015年在AWS推出数 据搜索服务后,陆续在微软Azure和谷歌云上推出公有云服务。2019-2020年, 公司PS分别为11.1倍、14.3倍和23.1倍。2021年,公司与AWS发生软件授权事 务相关纠纷,导致其搜索服务在AWS上暂停服务,影响其当年营收增长及估值 水平。2022年1月,其PS下降至14.8倍。
5. Snowflake:公司成立于2012年,在行业内较早推出基于多云环境下的云端数 据仓库产品。2014年,其在AWS上推出数据存储与分析服务;2018年、2019 年陆续在微软Azure和谷歌云提供数据仓库服务Data Cloud。2022年初,公司PS 为95.6倍。与分布式数据库公司相比,公司自诞生之初就基于公有云按照使用量 收费,技术架构和商业模式较同行更为先进。2022年11月份,估值水平的下降 与美国加息等市场宏观因素有关。
星环科技积应对行业变化,技术持续迭代,产品线持续拓展,持续业务转型。大 数据行业技术迭代快,产品品类多。星环科技在发展过程中,坚持研发由底层向应 用功能延伸,产品由基础平台向数据库拓展的策略。我们认为,公司在技术和产品 基础较为稳固的情况下,业务向外拓展的动力较强,空间较大。未来随着业务转型 的持续深化,其发展前景看好。公司业务转型情况具体如下:
1. 产品类型正由数据平台组件向数据库拓展:公司现阶段的营收来源以大数据基 础平台TDH中包括关系型分析引擎Inceptor、实时流计算引擎Slipstream等底层 核心组件为主。各数据库产品虽然营收规模较小,但其增速较快。2019-2021 年,在软件产品授权模式下,公司Hyperbase、StellarDB、ArgoDB和KunDB 等数据库产品营收CAGR为50.3%。我们认为,公司的研发采取自底向上、由核 心到应用的策略,在底层核心组件实现较大比例自研的情况下,未来有望向各 数据库研发投入更多资源。随着各类数据库产品功能不断完善、性能持续提升, 其实现的营收有望保持快速增长趋势。
2. 技术架构由分布式向云原生升:公司开发的TDC产品是基于容器技术的数据 云平台,其基于Kubenetes重构了存储和计算调度模块,可帮助系统减少大量 资源消耗。目前,TDC产品可以以PaaS云服务的方式为客户提供数据湖、数据 仓库、搜索引擎、实时计算、数据科学平台、交易数据库等服务。 3. 商业模式方面已具备上公有云的技术基础:公司开发的TDC云管平台可通过纳 管IaaS主流平台为上层PaaS及用户提供虚拟机、虚拟网络和对象存储等服务, 满足客户对数据平台的多租户、弹性可扩展和使用灵活性的要求。我们认为, 公司已具备上公有云的技术条件,未来,若其与云计算公司在商业化落地方面 形成资源互补、达成合作共识,则其上云的商业化进程有望快速落地。
免责声明
版权声明:本文内容由网友上传(或整理自网络),原作者已无法考证,版权归原作者所有。省心文案网免费发布仅供学习参考,其观点不代表本站立场,本站不承担任何法律责任!