2022年中国数据库研究报告
数据库丨研究报告
核心摘要:
中国数据库市场规模:据艾瑞统计,2021年中国数据库市场总规模达286.8亿元,同比增长16.1%。中国数据库市场虽受疫情影响,但整体稳步增长,由多方面因素促成:1)信创利好;2)需求驱动;3)国产厂商厚积薄发;4)国内用户对基础软件的IT支出,尤其是国产数据库的付费意愿逐年提升。
在数据库市场供给侧:分布式架构的技术特性趋于融合,云化部署大势所趋,使用门槛不断降低;数字化业务场景不断丰富,业务需求驱动HTAP技术成为重要的技术底座;在开源数据库领域,国产开源时间不长,整体表现尚有提升空间;国产数据库借信创东风,迎来了前所未有的发展机会。
在数据库市场需求侧:在数字化转型浪潮下,企业用户的数据已初具规模,业务场景和数据结构越来越复杂,对于数据分析的需求日趋强烈。数据库部署方式呈现多元化,其中分布式架构和云部署的渗透率显著提升。随着国产数据库的技术创新以及产品性能提升,国产产品的头部效应明显,用户体验仍有待进一步完善。
数据库行业趋势洞察: 数据库出海成为国产厂商的全新增量逻辑,欧美线路和东南亚线路是国产厂商出海的优选项;云原生进入2.0时代,实现了云资源对数据库的细粒度资源拆解和优化编排,云托管数据库进一步向原生式数据库推演;数据库与大数据技术的边界不断模糊,呈现融合趋势。
定义
数据库是由DBMS统一管理的,有组织、共享的数据集合
数据是描述事物的符号记录,具有多种表现形式,包括文字、图形、图像、声音和语言等。数据库是相互有关联关系的若干数据的集合,特点是数据间联系密切、冗余度小、独立性较高、易扩展,并且可为各类用户共享。数据库管理系统(DBMS)是负责数据库搭建、使用和维护的系统软件,通过组织、索引、查询、修改数据库文件,实现数据定义、组织、存储、管理以及数据库操作、运行、维护等主要功能。围绕DBMS构建包含硬件操作系统、数据库管理系统、数据库管理员以及相关机制配套在内的数据库系统(DBS),才能有组织、动态地存储大量相关数据,方便多用户访问。
发展历程
硬件技术、应用场景等快速变化,行业格局百花齐放
分类
数据库按照不同维度,分类方法多种多样
分布式现状
技术特性趋于融合,云化部署大势所趋,使用门槛不断降低
分布式数据库是通过计算机网络将物理分散的多个数据库单元连接组成的逻辑上统一的数据库。目前分布式数据库的技术路线分为三类:分库分表+中间件方案、共享存储分布式数据库、去中心化的分布式数据库。当下分布式数据库市场产品繁多,但其技术特性逐渐趋同,从两个角度分析:其一,系统架构。存储采用开源或者自研内核,用一主多从的数据副本保证数据完整性,计算通过SQL语句解析分发和结果汇聚,管控用于保证各模块的高可用和故障切换等管理功能。其二,开源和自研两条研发线路。开源主要基于 MySQL 和 PostGreSQL,难点在于源代码改造的技术难度大;自研周期长且技术要求高,国内完全自研产品屈指可数,如TiDB 和 OceanBase等。未来分布式数据库的核心竞争要素为分布式事务的稳定性、产品全面性以及生态工具的完备性。
分布式前瞻
加强底层故障隐患感知,提升异常处置能力,实现开箱即用
墨天轮数据显示,国产分布式数据库自2019年以来保持高速增长,热度持续高涨。而通过用户调研了解到,面对分布式数据库的故障时,运维人员往往束手无策。主要原因是相较集中式数据库,分布式数据库对IT 基础设施可靠性要求更高了,其核心代码主要覆盖了 SQL实现和数据存储,而未能自动感知各种对数据库稳定性、性能、并发能力有重大影响的故障隐患,也难以在代码层面对此类问题进行处理,从而实现故障自动规避。未来分布式数据库应提升基础数据探测和分析能力,随时针对出现的异常隐患提前处置,实现无需运维人员过多干预的高效自治运行,让分布式数据库从IT 工程化产品变为真正开箱即用的通用型产品。
HTAP现状
业务驱动HTAP技术成为重要底座,与分布式技术天然适配
随着业务系统接入数据源复杂性提升,混合负载需求愈发强烈,数据库技术正向多源异构、高实时并发、多SQL 标准接口的方向演进。过去,HTAP数据库的技术架构以扩展主行存技术,在行存基础上加列存的方式为主,典型代表有 SQL Server,Oracle 和 L-store等。随着分布式技术不断成熟,天然适配 HTAP 数据库,于是开启了分布式的架构实现,满足了高并发需求,典型代表有 SingleStore、MySQL Heatwave 和 Greenplum。我们认为未来 HTAP 仍应是在 OLTP数据库的基础上,引入原生分布式架构和低成本存储引擎以扩展大数据量 OLAP 能力。最后,为更好支持 OLAP的数据开发和建模能力,提升实时分析,HTAP 支持物化视图和外部表,并与各类数据开发工具和 BI 工具适配对接。
HTAP前瞻
运用内置流处理能力进一步加强AP和TP间的融合
墨天轮数据显示,自2020年以来国产 HTAP 数据库发展迅猛,几乎成为新兴数据库的必选项。Gartner 也指出 HTAP已经成为全球范围内新一代数据库的入场筹码,HTAP 能力成为数据库重要选项。随着数据技术的不断创新,未来 HTAP 数据库会进一步加强 AP 和 TP之间的连接和融合,在数据库内部实现 AP 和 TP 之间的内置流(Streaming)处理能力。通过将 ETL 工作内置于数据库当中,让 HTAP 数据库同时具备 AP、TP 和流(Streaming)能力。用户可以按需创建各类表,运用流处理能力将表连接,从而获得简单、便捷的数据处理能力。数据库技术的进一步融合会打破当下数据栈的割裂状态,HTAP、流批一体、湖仓一体等技术趋势最终会让数据集中在简单易用、安全可靠、高性价比的数据平台。
智能运维
融合智能技术实现复杂数据库环境的管理自治
DT时代数据库技术架构和运行环境日趋复杂,种类从单一产品转变为混合型商业数据库和开源数据库组合,依靠人工运维显得捉襟见肘。作为智能化的数据库周边工具,数据库管理平台将机器学习与数据管理在功能上融合统一,利用机器学习增强系统设计开发,以标准化、自动化、智能化的方式提供实时监控、健康巡检、智能诊断、多维分析等数据库管理服务。数据库管理平台的本质是数据库管理经验的代码化,核心方法论是云资源池化、分层解耦以及服务化,实现手段是基于微服务、分布式等云技术实现多元混合数据库环境的统一管理,目标是实现海量数据高安全、高可用、高性能的运维要求,助力数字化转型。
全球开源
热度持续,成为国产数据库走向国际化的重要途径
开源即开放源代码,用户可在源代码的基础上完成学习和修改。DB-Engines数据显示,截至2021年1月,开源数据库的全球部署首次超过商业数据库。此后,开源数据库凭借在成本、产品丰富度、社区活跃性等方面的突出优势,持续获得了全球的高关注度。开源成为驱动数据库技术和市场变革的重要力量。在此趋势下,开源成为数据库项目冷启动的最佳方式,也是构建国产自研数据库生态、加速技术迭代、让国产数据库走向国际化的重要途径。
国产开源
国产数据库开源时间不长,整体表现有待提升
近年来国内数据库厂商逐步推进开源策略。但因国内数据库开源时间不长,运营有待加强,整体表现有较大提升空间。以TiDB 为例,从开发者、使用者及代码角度分析,其开发者活跃、用户众多、代码变化较大,平均2-3年完成一次软件重构,侧面印证了上述特征。
中国数据库产业图谱
市场规模
受政策驱动和需求催化,2021年数据库市场规模达286.8亿
据艾瑞统计,2021年中国数据库市场总规模达286.8亿,较2020年增长16.1%,CAGR(2021-2026e)达13.4%。中国数据库市场虽受疫情影响,但整体稳步增长,由多方面因素促成:1)信创利好,国家对国产数据库的支持力度大;2)需求催化,数字化业务场景带动数据库多元化发展;3)供给侧厂商厚积薄发,技术创新涌现,产品性能显著提升;4)国内用户对基础软件的IT支出和国产数据库的付费意愿逐年提升。
发展特点
现阶段集中式数据库仍占据主流,分布式有待场景需求拉动
据艾瑞调研,若剔除数仓(绝大多数数仓采用分布式部署),集中式数据库的市场份额接近80%,而分布式部署不足20%。从技术角度看,虽然集中式数据库的水平扩展有限,但优点是足够简单和易用,在小规模数据量的场景下性能表现优异,而绝大多数业务场景的数据量并未大到必须使用分布式架构承载。分布式数据库的特征则恰好相反。从应用角度看,分布式部署更受行业头部用户青睐,其中信创环境下的国产化替代风潮起到了很大的推动作用。但运行场景多以非核心业务为主,用户的核心业务仍通过集中式数据库运行。因此,我们认为未来分布式数据库的发展一定是由业务场景的需求拉动。
事务型数据库增速放缓,分析型和HTAP数据库不断涌现
从收入规模来看,事务型数据库的市场份额占主导地位,分析型数据库占比不足20%。但预计未来3-5年内,分析型数据库的市场份额会有较为显著的提升,原因如下:各行业的数字化进程已取得了初步成果,企业核心业务的信息化过程主要是运用关系型数据库承载的事务类业务,因此当下事务型数据库增速已有所放缓。相反随着业务场景的丰富和数据复杂度的提升,诸如市场推广和营销分析类的分析型场景剧增,各类分析模式和分析方法不断涌现,最终都需要具体的分析型数据库执行。此外,HTAP理念也受到了热捧,但根据调研了解, HTAP 技术线路和产品实现尚未达成行业共识。
信创为国产数据库厂商提供发展沃土,未来市场空间可期
在国内数据库市场,传统的商业数据库有两类玩家:其一,以Oracle为代表的国外厂商;其二,以达梦、人大金仓、南大通用、神舟通用为代表的国产厂商。二者的此消彼长一方面源于国产厂商技术实力的不断增强,另一方面也反映了信创东风下,国家政策对以数据库为核心的基础软件领域的大力扶持。在此,我们希望通过分析国外厂商在国内数据库市场的商业模式,以反映未来国产化替代过程中,国产数据库厂商的市场空间之巨:据艾瑞调研了解, 一直以来国外厂商对国内用户的限制较低,导致在国内数据库市场的隐性规模尚未浮出水面。随着国产替代进程的不断深入,国外厂商的隐性市场份额被逐步释放,国产厂商潜在的市场空间可期。
用户画像
数据初具规模,数据结构向非关系型倾斜,分析需求增加
随着国内数字化转型节奏加快以及国产替代浪潮涌动,基础软件领域迎来了高速发展。数据库作为信息系统核心软件以及信创的关键环节,迎来产业黄金期,数据库产品的国内渗透率达到前所未有的高度。随着国内数据库用户不断增加,用户画像逐渐清晰,描绘出符合中国特色的数据库用户特征。
数据库用户的数据资产积累已初具规模,尤其是互联网、制造、政务、电信等领域多半已达到TB级别。用户的数据结构仍以关系型数据为主,但非关系型数据的比例有明显提升。用户的数据分析需求存在较大的行业偏差,互联网、金融、电信、零售、政务等领域需求较强烈,而能源、制造、物联网等领域相对较弱。
角色定位
数据库使用单位中不同角色对产品的考虑要素有所差异
产品部署
数据库趋于多元化部署,分布式架构和云部署渗透率提升
近年来,数据复杂度以及对数据的海量、多模、异构、弹性等要求不断提高,单一数据库难以满足当下的用数需求,数据库的多元化趋势显著。从调研数据可见,架构师和开发人员基于前端的数据使用需求呈现多样化,在研发规划之初便选择不同的数据库以满足开发需求。随着数据库技术的更新迭代,用户的选择灵活度更大,除功能、安全等传统因素之外,可从架构、研发、运维等多个维度考虑。在架构选型上,分布式架构的整体渗透率已超80%,其中仍以中间件+分库分表的实现方式为主。从部署模式看,云数据库的使用率接近80%,其中公有云占比60-70%。
产品体验
国产产品渗透率的头部效应明显,用户体验有待进一步完善
在调查数据库用户的使用体验时,我们收获的反馈相对集中:第一,数据库迁移难度大,占比19.2%,难点聚焦于迁移过程中的兼容性、数据安全、停机时间、数据校验和性能保证等。第二,缺乏数据库的一站式管理,占比14.8%,当前市场上的一站式管理平台以管控类为主,主要面向DBA等专业技术人员,而对开发、业务、运维等其他角色的门槛偏高。第三,运维与备份的复杂度高,占比14.3%,随着技术路线的灵活度和复杂度提升,运维与备份和难度势必增加。
具体到国产数据库的市场渗透情况,PolarDB 排名第一,MogDB 排名第二,达梦排名第三,TiDB排名第四。在云厂商中,阿里云的市场份额排名第一,华为云和腾讯云并列第二,亚马逊排名第三。
未来规划
深化多元化部署,技术选型更加注重安全稳定与服务能力
在调研数据库用户的未来部署规划时,我们发现超过60%的用户计划未来使用更多类型的数据库产品,以满足日趋复杂的数字化业务场景。在产品架构选择上,以单机或集中式架构为主的数据库用户中,超过50%计划未来选用分布式数据库,其中计划采用原生式和中间件+分库分表的比例接近1:1。而在产品部署形态上的调研结果较为有趣,当前采用本地化部署形态的数据库用户中,超过60%的用户表示未来上云的意愿不强。究其原因,主要是市场环境与体制因素导致的国内外云计算市场的显著差异,具体体现为传统企业上云以项目制、定制化解决方案为主,以混合云带动公有云发展,理论发展前景大,但实际增速明显低于海外。
趋势一:出海
国产数据库的全新增量逻辑,风险与机会并存
随着基础软件领域成为资本热土,仅2021年新成立数据库公司超30家,新兴厂商核心团队普遍来自大厂,技术扎实,经验丰富,产品各具特色,性能较佳,并且资金充裕。但另一方面,国内数据库市场的用户侧呈现如下特点:第一,互联网用户多采用开源或自研数据库,极少使用新兴的产品;第二,政企类用户具备完善的产品和服务生态,新兴厂商难切入;第三,缺乏互联网+新“风口”带动市场增量空间;第四,大量中小企业存续不稳定,对数据库需求不强烈。数据库厂商纷纷提出出海战略,创业公司自成立之初便定位国际化,但普遍面临信任度、监管、地理位置等障碍,而上云、开源、新技术敏感度成为除基础技术以外,国产数据库顺利出海的关键要素。
趋势二:云原生
上层需求驱动,底层技术支撑,存算分离,优化资源编排
数据库云托管解放了底层硬件的管理成本和计算资源约束,但底层存算一体的资源绑定导致无效成本和资源浪费。云原生数据库实现了云资源对数据库的细粒度资源拆解,符合业务的资源编排。尽管各家厂商的架构设计和创新思路不尽相同,但可总结为“软硬兼施”。在软件层面,计算层打包SQL语句解析、物理计划执行、事务处理等,共享存储层存放事务日志和数据存储,并通过分布式技术保障高可用和一致性,最后二者采用高速网络互联,通过数据传输协议或其他技术提升I/O 性能。此外,云原生数据库的分层架构还需结合新硬件技术的特性进行重构,如运用可扩展 CPU和高主频内核进行算力优化,运用持久内存 (PMEM) 重构二级缓存以提升 I/O 密集型场景下的读写性能。未来数据库将进入从硬件平台到架构层再到应用层的全栈优化时代。
趋势三:湖仓一体
数据库与大数据技术边界不断模糊,呈现融合趋势
以 Hadoop 为代表的大数据技术以低成本的方式提供海量数据的开发和运行处理,但缺点是结构化能力较差,早期不支持 SQL语句解析。随着大数据技术发展,基于 Hadoop 的数仓工具 Hive 开始提供 SQL查询功能,但整体性能较差。随后支持 SQL 查询的工具(如Spark SQL)开始涌现,大数据技术的分析处理能力提升,结构化趋势明显。另一方面,数据库天然具备强结构化能力,尤其关系型数据库原生支持SQL 查询,但早期存储成本高,对海量数据的支持能力不足。但随着对象存储(OSS)被广泛应用,其低成本、高可用、数据持久及按需付费的特点,让数据库产品能够应对轻体量的大数据场景。由此,随着数据技术的发展创新,数据库与大数据技术的边界不断模糊,二者互相延伸。我们认为传统大数据技术有着更为丰富的生态,但是对技术要求较高,相比较而言,从仓向湖的延伸路线,更适合传统企业和中小企业。