数据中台组成及技术架构设计
随着大数据与人工智能技术的不断迭代以及商业大数据工具产品的推出,数据中台的架构设计大可不必从零开始,可以采购一站式的研发平台产品,或者基于一些开源产品进行组装。企业可根据自身情况进行权衡考虑,但无论采用哪种方案,数据中台的架构设计以满足当前数据处理的全场景为基准。
以开源技术为例,数据中台的技术架构如图所示,总体来看一般包含以下几种功能:数据采集、数据计算、数据存储和数据服务;在研发、运维和公共服务方面包括离线开发、实时开发、数据资产、任务调度、数据安全、集管理。
1.数据采集层
按数据的实时性,数据采集分为离线采集和实时采集。离线采集使用DataX和Sqoop,实时采集使用Kafka Connect、Flume、Kafka。
在离线数据采集中,建议使用DataX和Sqoop相结合。DataX适合用在数据量较小且采用非关系型数据库的场景,部署方式很简单。Sqoop适合用在数据量较大且采用关系型数据库的场景。
在实时数据采集中,对于数据库的变更数据,如MySQL的binlog、Oracle的OGG,使用Kafka Connect进行数据的实时采集。对于其他数据,先将数据实时写
成文件,然后采用Flume对文件内容进行实时采集。将实时采集后的数据推送到Kafka,由Flink进行数据处理。
2.数据计算层
数据计算采用YARN作为各种计算框架部署的执行调度平台,计算框架有MapReduce、Spark及Spark SQL、Flink、Spark MLlib等。
MapReduce是最早开源的大数据计算框架,虽然现在性能相对较差,但它的资源占用比较小,尤其是内hbase主要用来储存什么数据
存方面。因此在部分数据量过大,而其他计算框架由于硬件资源的限制(主要是内存限制)而无法执行的场景,可以将MapReduce作为备选框架。
Spark及Spark SQL是在批处理方面拥有出性能的成熟技术方案,适合大部分的离线处理场景。特别是在离线数据建模方面,建议使用Spark SQL进行数据处理,既能保证易用性,又能保证处理的性能。Flink是实时数据处理方面的首选,在处理的时效性、性能和易用性方面都有很大优势。
而机器学习一般采用Spark家族的Spark MLlib为技术底座。Spark MLlib内置了大量的常规算法包,如随机森林、逻辑回归、决策树等,可以满足大部分数据智能应用场景。
同时,数据中台不断进化,也逐渐融入A I能力。如人脸识别、以图搜图、智能客服等能力的实现就需要A I平台。目前较为成熟的A I平台有T en so rFl ow及PyTo rc h。为实现物体的检测和识别,可使用SS D、Y O L O和Re s Ne t等深度学习模型,而在人脸检测和识别中则主要使用M TC NN、Re t inaNe t和Re s Ne t,人脸检索可使用Faceb oo k开源的针对人脸检索的Fai ss框架。
3.数据存储层
数据存储层所有的存储引擎都基于H ad oo p的HD FS分布式存储,从而达到数据多份冗余和充分利用物理层多磁盘的I/O性能。在HD FS上分别搭建H i v e、HB a s e
作为存储数据库,在这两个数据库的基础上再搭建Im pala、Pho eni x、P re sto引擎。
H i v e为大数据广泛使用的离线数据存储平台,用于存储数据中台的全量数据,在建模阶段可以使用H i v e SQL、Spark SQL进行数据处理和建模。
HB a s e为主流的大数据N o SQL,适合数据的快速实时读写。在实时数据处理时,可将数据实时保存到HB a s e中,并且可以从HB a s e中实时读取数据,从而满足数据的时效性。
Im pala可以对H i v e、HB a s e等大数据数据库进行准实时的数据分析,能满足对分析结果速度有一定要求的场景。
Pho eni x是构建在HB a s e上的一个SQL层,能让我们用标准的JDBC A PI而不是HB a s e客户端A PI来创建表、插入数据和对HB a s e数据进行查询。
P re sto是一个开源的分布式SQL查询引擎,适用于交互式分析查询。P re sto 支持H i v e、HB a s e、M y SQL等多种关系型和大数据数据库的查询,并且支持jo in 表。对于对接自助分析和统一数据服务的场景,可以通过P re sto来统一访问具体存储的数据库,从而达到语法统一和数据源统一。
4.数据服务层
数据服务层采用的技术与业务应用类似,主要基于开源Spring Cloud、Spring Boot等构建,使用统一的服务网关。