查看原文
其他

数据基础设施发展现状与趋势


本文节选自中国信通院于2023年1月4日在第五届“数据资产管理大会”上发布的《大数据白皮书(2022年)》。

报告介绍及全文下载链接如下:

中国信通院发布《大数据白皮书(2022年)》


02数据存储与计算:通过深度优化实现提质增效


数据存储与计算提供海量数据的高压缩比存储和高效计算等基础能力,以数据库、数据仓库、数据湖等为其技术表现形态。其发展历程长、产业成熟度相对较高,目前在数据要素等新需求牵引下,正呈现出稳中有进的发展态势。本章将介绍数据存储与计算领域的发展历程、当前现状、主要特征和趋势展望。


(一)数据存储与计算发展历久弥新


1960年信息时代开启后,用于存储、计算少量结构化数据的关系型数据库、数据仓库诞生,Oracle、DB2、Teradata等商业化产品逐渐成熟。2000年互联网兴起后,结构化数据的规模迅速膨胀、非结构化数据开始涌现,传统关系型数据库、数据仓库能力出现瓶颈,以Apache Hadoop为代表的分布式存储计算框架成为新的技术潮流,Cloudera、Hontonworks等数家商业化公司纷纷成立,大数据时代正式来临。2010年移动互联网逐渐普及后,实时推荐、即时决策需求对海量数据处理的实时性提出更高要求,同时视频、音频、图片等非结构化数据占比大幅提升, Storm、Flink等流处理框架受到关注,数据湖技术也开始迅速产品化。图2对数据存储与计算领域的技术发展历程进行了简要总结。


来源:中国信息通信研究院

图2 数据存储与计算领域技术发展历程


技术方面,经过60余年发展,数据存储与计算领域总体技术框架趋于成熟,进入深度优化阶段。数据存储与计算领域已经形成了以分布式数据库、数据仓库、批处理平台、流处理平台为代表的总体技术框架,并广泛应用,已能够支撑具有高并发、低延迟数据处理分析需求的极端场景。例如在“双十一”场景中,大量营销、交易风控等自动决策被嵌入业务流程,形成了复杂的数据处理分析链路。在技术能力已相对成熟的基础上,以云化、湖仓一体为代表的深度优化理念不断涌现,并逐步应用,为数据存储与计算领域进一步降本提质提供了新范式。


产业方面,全球疫情加速了数字化转型进程,数据存储与计算领域的产业发展前景持续向好。国际方面,国际云数据仓库巨头Snowflake 2022年第三季度营收与去年同期相比上涨67%,达到5.5亿美元;国内方面,2021上半年我国大数据平台市场规模达54.2亿元,同比增长43.5%[1];2021年我国数据库市场规模预计达305.78亿元,同比增长26.93%[2]。同时我国大数据基础软件第一股星环科技于2022年10月成功上市科创板。数据存储与计算领域市场增长趋势和行业预期持续向好。


建设运维方面,数据存储与计算建设持续深入,安全稳定运行成为关注焦点。随着数字化转型的开启,工商银行、建设银行、农业银行等头部金融机构,电信、移动、联通等运营商,大型互联网公司以及诸多行业头部企业均在数年前完成数据存储与计算总体框架建设。近年来,随着数据规模增多、价值提升,数据存储与计算技术平台逐渐复杂,运维使用时的稳定性保障和安全防护成为难题。2022年,Google、Twitter等公司的数据存储与计算技术平台均发生故障,同时,全球范围内也发生多起针对数据存储与计算技术平台的恶性攻击,相应安全事件带来的损失也不断增高。


(二)当前数据存储与计算发展呈现三大特点


1. 云化改造全面加速


数据存储与计算技术持续与云融合,资源利用率进一步提升。随着云计算的发展,数据存储与计算技术逐渐从私有部署转化为云上部署,初期体现为部署模式的不同,但伴随着云原生理念的兴起,云原生数据存储与计算产品开始成为产业变革浪潮。利用云原生理念,数据存储与计算一方面实现存储、计算、调度、安全、分析等模块的进一步解耦,各模块与容器等底层资源单元相适配,实现弹性扩缩容,从而使得资源利用率提升30%~40%;另一方面实现应用接口函数化,即利用 Serverless 的理念,将更多如统计、机器学习、流程处理等能力封装成函数接口,实现更细粒度的按需使用和付费,在提升2~3倍发布效率的同时,有效降低成本。近年来,华为、腾讯云、阿里云、百度、星环等国内主流大数据企业均推出云原生数据湖、云原生数据平台等产品。2022年阿里云首款 Serverless数据库产品RDS MySQL Serverless正式商业化,PingCAP在HTAP Summit上宣布TiDB Cloud Serverless Tier BETA版正式发布。


2. 融合一体化持续加深


批流一体、湖仓一体、HTAP(Hybrid Transaction Analytical Processing,混合事务与分析处理)等融合架构不断降低运维成本。随着数字化转型的深入,企业通常会针对不同的业务场景、不同的数据模型搭建不同的平台系统,带来了数据冗余、数据一致性差、资源配置难、系统复杂等问题,极大增加了运维的压力与成本。为解决上述问题,数据存储与计算领域各技术产品转向融合架构成为趋势,例如将批处理技术与流处理技术融合的批流一体技术框架、打通数据仓库和数据湖技术的湖仓一体技术框架以及同时具备在线事务处理及分析的混合事务分析处理技术。建立融合架构后,统一的接口层、计算层、存储层、资源调度层实现了对海量数据的统一管理和集群服务的统一运维,大幅降低了运维综合成本。国内外厂商纷纷提出自己的融合架构解决方案。例如,近年来海外厂商Databricks同戴尔推出Data LakeHouse、亚马逊推出智能湖仓架构,2022年国内厂商巨杉数据库推出SequoiaDB、阿里云推出MaxCompute湖仓一体方案、星环科技推出星环湖仓一体V2.0等。


数据中间件技术为计算层与异构存储层搭建桥梁,提升整体运行效率,进一步加速数据平台融合一体化。在存算分离后,存储层为满足不同类型数据存储的需求,文件存储、对象存储、表存储等多种异构存储引擎同时存在。计算层和异构存储引擎之间的连通复杂度越来越高,数据中间件技术应运而生,其通过内置兼容接口和加速技术,助力计算层与异构存储层高速互联。例如开源的Alluxio向上对接Spark、Presto、Hive、TensorFlow等计算应用,向下对接阿里云OSS对象存储、AWS S3存储、HDFS等不同存储,可提升I/O效率200%以上;ShardingSphere 将多类异构数据库MySQL、PostgreSQL、Oracle、SQL Server、openGauss等包装为统一数据库访问接口,从而方便多种编程语言直接访问多类异构数据库。


3. 安全能力快速补强


数据存储与计算面临着新型安全挑战,内生安全正成为传统防护的重要补充。一是随着自身规模不断庞大,数据存储与计算技术平台的边界不断延伸,网络安全防护体系随之指数级膨胀,容易出现盲点、漏点;二是伴随数据开发利用的深化,数据存储与计算技术平台中的关键数据与其他系统将进行高频的互联互通,安全和效率难以均衡;三是数据存储与计算技术平台的技术组件60%以上基于开源技术,容易遭遇“0day”攻击;四是数据存储与计算技术平台中数据集中存储,但操作人员类型多、数量多、变更多,操作频次高,存在数据泄露风险。2022年1月,美国交通运输业商业信用报告机构TransCredit因配置错误致使数据库无密码保护,共计涉及50万人财务数据的60多万条信用记录泄露;2022年6月,土耳其飞马航空公司因其AWS云存储桶未受保护,发生总计约6.5TB的数据泄露,其中包含敏感的飞行数据;2022年10月,跨国集团汤森路透因配置错误导致存有3TB敏感数据的Elasticsearch数据库发生泄漏。近年来频发的数据泄漏事件,使得全密态执行环境、敏感数据自动识别、高效数据加解密、细粒度的权限控制、零信任等内生安全技术在数据存储与计算技术产品中的应用不断增加,与传统网络安全防护相辅相成。近一年,华为云、阿里云相继推出全密态数据库,星环科技TDH、阿里云Dataworks纷纷加入敏感数据识别能力,亚马逊RDS增加内置防火墙。


(三)数据存储与计算面临的主要挑战与发展趋势


经过半世纪的发展,数据存储与计算领域总体技术框架基本成熟,产业稳步发展,为上层各类数据应用诞生提供了坚实基础。但随着数字化转型从头部行业向传统行业延伸、数据的生产要素属性不断凸显,数据存储与计算领域也迎来新的挑战。一是数据存储与计算技术平台建设运营成本仍需控制。数据存储与计算技术平台规模体量大、建设周期长、前期投入高,但投资回报率却相对较低。随着疫情以来经济大环境发生变化,企业需要更加理性、务实的开展数据存储与计算技术平台建设,从实际收益的角度进行评估论证和精细化运营,同时数据存储与计算技术也应从降低运维使用成本等方面优化提升。二是促进数据要素市场化的数据存储与计算技术创新仍需加强。随着数据成为生产要素,数据的潜在价值愈发受到重视,但当前数据要素市场建设面临数据权属、定价、安全保护等难点问题,这其中的一些问题是否能通过数据存储与计算相关技术得到解决或加以规避,正在成为摆在数据存储与计算领域发展过程中的关键命题。


未来,数据存储与计算领域呈现以下三点趋势。


一是技术和管理双管齐下,探索数据存储与计算技术平台精细化运营之路。据Wikibon研究,全球范围内企业数据存储与计算技术平台的平均投资回报率仅为55%,46%的企业数据存储与计算技术平台未达到预期价值。投资回报率低成为制约数据存储与计算技术平台渗透率进一步提升的重要因素,产业正尝试从技术和管理两方面探索精细化运营之路。技术方面,核心计算、存储等模块尝试与AI结合,通过智能资源调度、智能数据分层存储等,实现精细化运营;管理方面,探索公司内部成本分摊方式,从而避免业务部门无成本观念式使用数据存储与计算技术平台,例如技术部门向业务部门售卖资源模式、按业务部门使用量计费模式等。


二是数据编织(Data Fabric)、全密态数据库等新理念新技术不断成熟,为数据的要素价值释放提供更强力的技术底座。数据要素市场形成涉及数据权属、定价、安全保护等一系列问题,传统数据存储与计算技术重点关注计算、存储效率,未解决数据要素市场面临的问题。随着数据规模和数据关系复杂度的增加、数据权属问题的复杂化,传统集中式数据管理模式无法满足需求,出现了Data Fabric这一概念。Data Fabric基于主动型元数据、增强数据目录、数据虚拟化等技术,形成了一套分布式、自动化、智能化的新型数据管理形式,当前IBM已经推出了相关解决方案。全密态数据库使数据在传输、计算以及存储的各个环节始终都处于密文状态,从而解决数据全生命周期的隐私保护问题,提供数据要素安全保护的能力,目前阿里云、华为均已推出相关产品。


三是我国数据存储与计算领域技术和产品将逐步走向海外市场。我国数据存储与计算领域产业经过多年发展,在部分技术领域的供给能力已经达到国际一流水平。当前,以东南亚为代表的新兴数字经济市场规模正在快速增长,数据存储与计算技术平台的建设需求十分旺盛。根据谷歌、淡马锡和贝恩公司发布的《2021年东南亚数字经济调查报告》显示,东南亚数字经济产业将在五年内实现翻倍增长,在2026年达到3600亿美元。在这一背景下,二十大报告中提出“发展数字贸易”,商务部、中央网信办、工信部联合印发《数字经济对外投资合作工作指引》,推动我国在数字经济领域逐渐形成对外开放新格局。当前,我国数据存储与计算领域的部分企业已开始走向海外市场,阿里巴巴、腾讯等企业已经开始借助自身全球云计算网络基础,PingCAP、OceanBase等企业借助开源优势,助力其数据库、大数据产品突破日本、印尼等海外市场。


【1】来源:IDC咨询

【2】中国信息通信研究院《数据库发展研究报告(2021年)》,2021年7月

联系人:

田老师

18795986568 

tianjiafeng@caict.ac.cn



业内首家!浙江移动完成分布式数据库运维管理能力成熟度模型评估

戮力前行 |《数据库发展研究报告(2023年)》首次研讨会成功召开!

关于我们

     中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!

      入会咨询:白老师   13520285502

                       baizhimeng@caictyds.cn

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存