数据中台架构的主数据平台及关键技术设计
摘要:针对传统数据平台存储容量不高、数据处理能力较差的问题,对业务数据进行层级分割和水平解耦,构建数据中台架构的主数据平台,实现跨域数据整合和数据积累。通过服务的形式构造数据接口,进行数据业务的开发,对业务前后端应用需求灵活应对。
关键词:数据中台架构;主数据平台;关键技术
引言
传统的数据平台基于简单的总体架构,完成数据导入、整理多维数据集合简单的数据分析。当前传统的数据平台是单节点,数据存储容量不大,只能对结构化的数据进行处理,面对海量的异构数据时,一些数据源无法涉及。
1数据中台架构的主数据平台
1.1主数据平台设计
数据的中台架构为完成系统业务数据的层级分割和水平解耦,将公共业务数据入口独立出来,
通过数据层的数据模型实现跨域数据整理和知识累积,应用视图和控制器实现构建数据接口,进行数据业务的开放,对数据业务的前后端应用需求灵活部署。数据平台对数据划分多个层次可以更好地管理数据模型,按照数据结构规范分层处理,数据模型将多种数据标准化,使用多维度建模。数据标准化概括为3层:基础数据模型处理数据;融合模型按照数据的维度进行建模,整合多种数据类型,处理数据的形式包括整合、关联和分解;挖掘数据模型偏向于业务层面,复用性较高的融合在中台架构中,作为企业的数据模型,提高了业务效率。数据中台架构的主数据平台对外提供统一的服务能力,按照应用要求,对构成数据根据业务场景进行服务。数据服务能够使开发人员快速访问和查询数据业务,数据分析人员可以进行算法分析,包括数据模型的管理和数据结构的分析。 数据平台中,源数据和数据模型是数据中台搭建的基础,数据开发是连接前台开发重要的环节。首先是提供标签库,基于标签库的分类区分营销客户,面向业务人员。数据开发平台面向所有用户和SQL开发人员,提供数据访问,将业务数据可视化处理。方便快速掌握了解数据,及时发现透明数据动态,保护数据的安全性。在数据业务响应过程中,共享数据服务实现数据共享。数据模型多元化支持可视化平台,给业务决策提供数据支持,结合自身实际数据结构,对数据平台分层划分,不同的层次承担不同的数据类型,可以更方便地进行数据模型管理。
1.2数据采集模块
数据平台中数据采集方式包括自动爬虫、第三方数据和手动采集3种方式。大部分数据由自动爬虫获取,第三方数据采集的数据主要是公司企业的各项业务场景中的数据指标,这部分数据量过大,采集过程较为复杂。数据加载是AJAX请求,具体数据采集实现过程分为3个类, 使用以下方法进行数据采集:首先进行数据请求时,headers配置需要填充path、query_hash等关键词。Cookie可以进行一次登录后截取修改,配置SessionID,X-IG-App-ID、X-Instagram-GIS从html中SharedData字段中获取。Instagram的页面访问结构不是传统数据采集的线性结构,是通过cursor进行的链式结构。数据注册模块对采集到的图片数据进行注册,将收到的图片数据各等级业务来源信息记录并保存,为每个图片数据生成唯一编号,分配base64存储空间与索引结构化操作。  数据注册模块和数据采集模块之间紧密耦合,减少了数据采集占有服务器的存储空间,减少了磁盘空间,防止磁盘空间溢出造成的程序崩溃。当采集到的业务数据到达一定数量级时,使用数据注册模块将图像数据注册入库,删除本地缓存,清理出磁盘空间,保证数据采集模块的顺畅运行。图像数据注册过程中,每一次图片注册实例化一个数据类,并调用该函数,将图像数据的文件名、bas
e64、源数据引用,根据图像的特征生产md5值作为数据的编码,同时检索数据库中是否存在相同的数据,防止数据重复,引起数据调用的错误。最后调用self_create_data_center_record为图像补全注册信息,并返回图像编码。表2为注册模块接口描述。
2电网现代云仓体系构建
2.1电网现代云仓体系主体模式
电网现代云仓体系是一个由物资部门主导的供应链级仓储资源共享网络,对于电网物资供应链中物资流通形成的库存,电网物资管理部门以供应链为基本单元,采用先进的技术搭建现代化的信息平台,以共同目标为基础建立合理的利益分配风险分担机制,基于客户需求的准确分析及预测,与电网物资供应链节点企业共同控制库存及共享仓储设施资源,达到同企业不同区域(仓储节点)的库存共享、供应链上下游各企业的库存最少,逐渐形成库存少、成本低、响应快、信息共享、运行效率高、用户满意度高的供应链体系。
2.2电网现代云仓体系数据共享功能分析
大数据下电网物资部门仓储资源共享模式的研究首先从多层级电网物资部门横向整合着手云仓网络构建,再与供应链上游企业纵向共享库存信息与仓储节点。电网物资部门作为电网物资供应链核心,国家电网下属27个省公司,省级公司又有几个或十几个地市级公司,各公司又都设置了数量不等的仓储节点和配送节点,而且产品供给需求变化快、复杂程度高,各节点的物资部门库存量和仓储能力配备是一个很高的数据点。在各节点的物资部门横向间进行库存共享和云仓构建包含两层含义:一是共享仓储资源,二是共享仓储运营信息。共享仓储资源能够快速解决库存积压、库存持有成本高、仓储资源利用率低的问题,共享仓储运营信息能够加速电网物资供应链实体库存的流转,提升各层级仓储网络节点的使用效益,而共享仓储资源又从根本上有赖于深层次的仓储运营信息的共享。
2.3电网现代云仓网络虚拟库存共享功能分析
电网物资部门云仓网络虚拟库存共享模式主要是指物资部门间形成虚拟联盟,并且构建云仓控制中心,通过库存调拨与仓储指派机制,对物资部门间或物资部门与下属仓储节点进行库存调拨、共享实体库存与仓储资源指派,同时向上游物资供应企业反馈需求预测、库存数据及库存调拨情况等。这种形式适用于当前电网物资供应链上下游信息共享不足的情况,主要
在物资体系内部实现库存信息畅通共享、实体库存快速周转和仓储资源充分利用,同时与电网物资供应链上其他节点企业通过云仓控制中心共享销售信息、库存信息、仓储信息等。该模式的设计目标是通过云仓控制中心进行总体库存的信息统计分析、库存量与仓储资源优化配置,以及缺货跨区域调运转拨,以提高电网物资部门总的物资周转利用率,降低物资库存水平和库存成本,并提高仓储资源利用率。
3系统架构微服务项目技术架构
3.1总体架构
在高铁质量管理理论与数字中台思想的指导下,本文提出基于数字中台的高铁工程质量管理系统架构,主要包含资源平台、基础平台、业务中台、数据中台、业务应用、技术体系和管理体系,共同支撑高铁工程各场景中的质量管理。(1)资源平台:包含感知、传输、安全、存储资源,实现工程全要素数据汇聚与存储。(2)基础平台:包含服务总线、认证中心、消息中心、日志中心、流程引擎、搜索引擎、图形引擎、地理信息系统(GIS,GeographicInformationSystem)引擎等,为系统提供基础服务。(3)业务中台:对高铁工程质量管理的各项业务中的共性需求进行提炼,沉淀为相对稳定的可共享的业务服务能力,
主要包含5个业务中心,分别为质量文化中心、质量体系中心、质量技术中心、质量方法中心和质量红线中心。(4)数据中台:是数据服务能力的汇集,实现数据治理、数据整合和数据智能计算等功能。(5)业务应用:包含了人员管理、机械管理、物料管理、方法管理、环境管理及验收管理等方面的应用模块,以数据分析结果辅助管理者决策。(6)技术体系:包含数据采集、传输、处理、展示等数字化技术,例如物联网、云计算、大数据、建筑信息模型(BIM,BuildingInformationModeling)、数字仿真等。(7)管理体系:是对传统质量管理方法在数字化环境下的优化提升。例如:全面质量管理理论中的“计划(Plan)—实施(Do)—检查(Check)—处理(Act)”(PDCA)循环方法与数字化技术的结合,使工程质量管理的信息流动更加快速、直观,加快了工程质量PDCA循环的迭代速率。
3.2业务中台设计
业务中台的建设是对高铁工程质量管理各项业务中共性需求的提炼,并沉淀为相对稳定的、可共享的业务服务能力。在高铁工程质量管理过程中可规划设计5个共享服务中心:质量文化中心、质量体系中心、质量技术中心、质量方法中心和质量红线中心。共享服务中心采用分布式微服务技术架构,通过服务接口,为高铁工程质量管理业务应用提供业务变化与创新
的快速响应能力。(1)质量文化中心:是辅助高铁工程质量文化构建的服务,通过质量培训、示范工程案例及突出质量问题案例等方式使质量文化更深入人心。主要包含培训资料管理、考试服务、示范工程管理及突出问题管理等。(2)质量体系中心:是具体质量管理工作中的管理模式、组织机构等的数字化表达,保障数字化质量管理的落地应用。通过组织机构管理、铁路工程实体结构分解(EBS,EngineeringBreakdownStructure)、铁路工作分解结构(WBS,WorkBreakdownStructure),实现具体工作任务、质量责任与组织机构的对应关联,促进质量管理的有序、规范推进。
3.3技术架构
从技术架构实现角度看,高校主数据管理平台自底向上划分为硬件基础存储、数据处理以及平台应用层3个层次。硬件基础存储层采用云计算平台进行建设。平台依托虚拟化云计算平台实现弹性可扩展服务,并能提供海量的数据存储和数据处理能力,实现全局的资源监控与调度。为保证平台大规模并发访问能力,采用Docker容器技术进行集配置,每个微服务根据访问情况支持动态负载均衡,可根据需要进行迁移、关闭、扩容,从而显著降低资源能耗,提升硬件资源利用率。数据处理层主要是实现数据采集、传输、存储、汇聚、加工以及
可视化等工作。同时在数据平台处理过程中也会纳入深度学习、机器学习、自然语言处理、图像识别算法等高级数据处理功能,提升平台数据公共处理能力。平台应用层采用SpringCloud框架进行微服务开发和架构的整体管理。框架内部集成了SpringCloudConfig配置管理工具、Eureka服务发现、Hystrix容错管理、Zuul动态路由、Ribbon负载均衡等插件工具包,实现业务资源重复利用,提升业务服务开发效率。通过微服务架构实现高校主数据平台的服务拆分以及多个互相独立的微服务。在微服务架构的开发过程中,采用DevOps开发模式,其实现模块开发、测试、发布、维护、更新的一体化。为加强平台应用层微服务接口设计,将遵循公开数据协议(OData:OpenDataProtocol)标准进行RestfulAPI接口的构建,从而实现不同系统服务之间的跨平台调用。在该项目实施过程中采用ApacheOlingo框架来实现OData协议,包括元数据定义、请求运行时处理、Web环境定义等部分,同时还支持URL(UniformResourceLocator)解析、输入验证、序列化、请求分发等功能。