【作者简介】谢正兴,男,广西南宁人,广州中铁信息工程有限公司项目经理,工程师,研究方向:云数据中心智慧运维。【引用本文】谢正兴.铁路云数据中心智慧运行维护平台建设与应用[J ].企业科技与发展,2023(1):53-57.
铁路云数据中心智慧运行维护平台建设与应用
谢正兴
(广州中铁信息工程有限公司,广东
广州
510630)
摘要:随着我国铁路行业信息化技术大步向前发展,不断加快运算资源“云化”的建设步伐,云计算逐渐成为铁路信息系统的中流砥柱。信息系统运行与维护(简称运维)的复杂程度与日俱增,现有运维模式难以支撑。文章为更好地解决某铁路局云数据中心运维工作面临的困境,不断提升信息系统运维工作的标准化、规范化、智慧化、自动化水平,提出具有设备监控、故障诊断及配置异常检测、应用程序管理功能的智慧运维一体化平台建设方案。利用机器自动处理运维数据的优势,简化运维工作的复杂程度,助力铁路局信息所运维科室实现智慧转型。
关键词:云数据中心;智慧运维;指标体系;AIOps ;应用场景中图分类号:U294.1
文献标识码:A
文章编号:1674-0688(2023)01-0053-05
◇企业科技创新◇
0引言
铁路信息系统运行无法全天候监管、运维人员
配比不科学、岗位职责臃肿、系统配置信息保存不规范易丢失、故障处理不及时,以及备件和备机台账管理混乱的问题,一直以来是铁路信息系统运维工作最大的阻碍。中国国家铁路集团在2022年4月发布的《“十四五”铁路科技发展规划》中指出,铁路信息化需要依照“统一设计规划、分级监督管理、系统应用与业务大数据集中融合的模式进行建设”,指导从国铁集团到各铁路局使用统一的运行维护管理平台,多级运维互联互通协同调度,开启铁路智慧数字运维新时代[1]
。恰逢此发展契机,某铁路局引入一体化运维管理平台,经过3个月的设备地址和系统信息录入,监控端口和函数配置调整,以及运维策略的关联任务定制,目前智慧运维平台自动运行状态良好,解决了原
有运维工具功能弱的问题,还优化了人员结构,压缩了成本,运维效果显著。本文主要从铁路局智慧运维的目标、智慧运维平台建设方案的设计、平台系统功能模块分解、运维指标体系的建立及智慧运维应用场景5个方面对铁路云数据中心智慧运行维护平台建设与应用情况进行论述,希望通过智慧运行平台的研究达到以下目的:①大幅减少日常人工巡检的工作量,最大限度地避免运维人员在常规工作中出现错漏的问题;②明确设备、系统故障靶向与处理方法,缩短故障处理时效,提升业务系统运
行的稳定性;③从实际操作中检验和提升运维人员的专业水平,减少运维服务外包的成本。
1铁路局智慧运维平台建设背景
近年来,某铁路局现车系统、T/D 结合系统、货票
系统、铁路运输管理信息系统(TMIS )逐步迁移至新建的虚拟化平台,铁路局内部的云数据中心不断增多,这对信息技术所运维科室人员的能力是一个巨大的考验。除此之外,信息所在上述系统的软件和硬件运维方面,一年的运维外包服务费用超过300万元,从目前铁路局信息化建设趋势看,如果仍然按此模式运维,后期费用还会以每年5%~8%的比例增加。
人工智能技术的运维系统日趋成熟,已经在金融、电力、通信行业发挥着举足轻重的作用。铁路信息化建设要想在运维方面有新突破,就必须采用其他行业实践验证的新技术解决依靠人力无法破解的问题。
机器模拟人类的意识、思维,与运维工作相结合,创造了由机器自主处理的运维新领域AIOps (智能运维,Artificial Intelligence for ITO perations )。信息系统的安全、高效、稳定运行是人工智能与运维结合及应用研究的重点,智慧运维在信息技术领域受到广泛关注。企业分布式计算、系统性能管理、大数据查询与分析、故障智慧检测、机器算法学习等新兴技术的加持,必将促进铁路数据中心运维能力提升至
更高层次,推动传统模式向智慧运维一体化模式转型[2]。
2铁路数据中心智慧运维目标
2.1集中运维管理
集中式的运维包含综合信息监控、系统参数配置、服务流程记录、运维自动处理、大屏图像展示等综合管理功能,利用机器学习人类运维管理思维和能力,采集和汇总铁路局数据中心的程序运行状态、主机资源使用、业务处理记录等数据,方便运维管理。
2.2规范运维管理
传统意义上的运维工作仍然停留在固定的巡查模式,即采取月度、季度例行巡检的制度,也无法做到主动对运维对象进行管理。规范运维管理能够将“监、管、控、析、服”5个方面相互融合,各司其职。“监”,
利用功能模块主动监控信息系统运行;“管”,建立统一的维护和配置数据库,实现集中管理;“控”,通过标准技术手段减少运维工作风险;“析”,对各类运维数据进行综合研判;“服”,推进运维技术服务资源的优化和整合。
2.3提高运维效率
通过采样和收集体量庞大的基础信息,给运维
智慧分析、故障综合研判、运维监管决策、自动修复处理、信息全面展现提供真实可信的凭据,帮助运维团队构建高效的工作环境,优化日常工作流程,切实保障数据中心平稳运行,最大限度地提升运维资源的利用率。
3铁路智慧运维平台建设方案
选用北京广通优云科技股份有限公司为某铁路局定制化智慧运维平台,该平台采用独立的PaaS架构,它提供了完备的运维应用生态环境,在其框架下,可以同时部署人员监控管理、设备配置管理、自动化流程管理、服务事件管理、大数据查询与分析、图像大屏展示工作台等功能建设。
3.1智慧运维平台总体架构
智慧运维平台包括数据中心基础设施、运维数字中台、运维应用生态、运维管理门户,平台总体架构如图1所示。
3.2数据中心基础设施
数据中心基础设施是运维监控的对象,通常包括运算处理、数据存放、网络交换、信息安全、消防灭火、温室控制和配电设备。
3.3运维数字中台
构建零散与整体相结合的运维结构,把运维大数据作为基础、智慧算法作为支点、运维场景作为目标。通过把运维能力下移至底部,形成服务支撑平台,运维场景上移至顶部,形成软件支持应用,用逻辑的方法实现运维管理分层处理。
3.3.1采控平台
借助面向多云及异构环境、完善的采控能力及随接随用的服务模块化接口,实现分布式、跨中心、多网络统一调度。多元的采控体系可同时扩展资源和纳管第三方应用,使用采控分层机制将其划分为代理层、接入层、服务端(如图2所示)。
(1)从逻辑层面可分为本地代理(Local Agent)、远程代理(Remote Agent)和汇聚代理(Hub Agent)3种,其应用功能可运行对应模块和使用外挂程序实现。采集控制代理使用的“模块+插件”混合扩展技术,将采控与监管代理数据和任务控制脚本,通过代配置
管理库
大规模
云监控
日志
监控
集中告微服务项目技术架构
警平台
作业
管理
运维即
时协同
服务目
录管理
运维
可视化
行业
应用
云平台
自动
发现
网络
监控
视频检
测诊断
应用全
景管理
运维
自动化
服务流
程管理
值班
管理
运维数
据分析
数据
对接
工具
对接
中间件
操作
系统
数据库
图1智慧运维平台总体架构
理接入网关统一调度,不论监控对象增多还是减少,采控代理都可按需扩展或者裁减。
(2)第三方运维工具集成应用开发需要的适配器框架和辅助脚本,并将运行维护数据进行标准化。为降低减低采控难度,对市面上SNMP(简单网络管理,Simple Network Management Protocol)、SSH(安全外壳,Secure Shell)、Telnet(远程登录服务)、IPMI(智能平台管理接口,Intelligent Platform Management In⁃
terface)、SMI-S(存储管理接口,Storage Management Initiative specification)、JDBC(Java数据库连接,Java Database Connectivity)、JMX(Java虚拟机管理扩展,Java Management Extensions)、WMI(Windows系统数据库管理,Windows Management Instrumentation)、HTTP(超文本传输,Hyper Text Transfer Protocol)等主流监控协议,全部进行了适配和支持。
(3)模块和插件是两种不同类型的扩展手段,模块由配置文件和常驻程序代码构成,其运行生命周期由模块自主控制,主要应对复杂的集成对接和被动注册侦听等采控场景。插件由配置文件和脚本代码构成,其运行生命周期由采控代理托管控制,主要应对配置采集、自定义指标采集、无人干预巡检等采控场景。为实现符合在线脚本快速编辑和开发的能力,分别对Python(多计算机平台编程)、Groovy(Java 虚拟机编程)、Shell(Linux系统编程)、Bat(Windows 系统批处理编程)、PowerShell(Wi
ndows系统外壳程序编程)脚本语言进行了支持。
3.3.2数据平台
运维数据库存放多种不同类型监控数据,对数据库的读写性能、查询效率、整合时效、数据分析等要求非常高。此外,数据库资源池还需要对数据关联分析提供高可用的访问支持[3]。首先,整合多个异源结构的运维数据,对数据进行校验、纠正、过滤,通过联合预处理加工实现数据标准化。其次,建立运维数据模型准则,将Counter(计数器)、Gauge(仪表盘)、
Histogram(直方图)、Summary(摘要)模型采样分块存放。最后,整治杂乱无章的信息资源,实现运维数据从产生到消逝的全过程管理。
3.3.3业务平台
完善运维应用程序编程接口和微服务自我监控,规避重复性建设,让上层应用可以更好地聚焦具体业务。同时,将运维过程的治理、数据的上报、故障的判别、信息的展示等功能组件化。
3.3.4开发平台
开发平台可以提供多种编译语言,降低了运维开发难度,构建起简单易懂的运维应用生态。每个监控服
务都可以独立进行开发、测试、部署、发布,高拓展性可以让其随着运维场景的变化而变化,便于后期智慧运维平台的维护与升级。
3.4运维应用生态
Eco-Ops是一种敞开共享式的生态化运维模式,其中心思想是促进面向服务对象发展,助力企业维护能力数字化转型,将自身与运维生态圈相互连通,打造运维与生产相融合的理念。通过共享知识经验和工作人员的实践经验,实现运维生态圈的可持续发展。
3.5运维管理门户
运维管理门户采用软件定义的微服务技术架构,实现运维数据分析、自动生成报表、运维数据图像大屏展示功能的组件模块,可以根据不同的运维场景灵活组合组件模块。
4运维数据需求及指标体系
4.1运维数据采集
在铁路局不断扩建云计算系统的环境下,数据中心运维监控对象越来越复杂。采集的对象分软件和硬件两大类,硬件包括运算处理、文件存放、网络交换、信息安全保障和控制机房环境等设备;软件包括核
心运算、资源管理、数据筛选、操作记录、基础服务等程序。从上述采集对象看,可通过以下指标体系,全方位监控数据中心的运行状态。
运维人员可以图2采控平台结构
利用这些数据在不同维度了解对象资源使用和健康优劣情况,辅助分析应用系统是否需要升级或扩容[4]。
(1)硬件数据:包含运算处理、文件存放、网络交换、信息安全和机房环境设备的CPU使用率、内存使用量、硬盘使用量、系统运行记录、告警记录、登录配置信息、端口状态、指示灯状态数据;还有空气温、湿度值及电源电压电流值、视频监控录像、七氟丙烷灭火压力值、红外入侵检测数据。
(2)软件数据:包含物理机操作系统、虚拟机操作系统、虚拟化平台、数据库、基础服务程序运行状态及记录数据;还有应用代码运行状态、服务响应时间、整体运算性能、事件告警记录、代码的请求数、应答数、进程流量、特殊事件数据。
4.2运维数据分类
根据对每一种监控对象采集动作进行抽象分类,从而实现机房设施、计算设备、系统软件、应用代码的集中管理。软件、硬件数据又可以细分为监测数据、记录数据、事件数据、配置数据。
(1)监测数据:各监测对象运行过程中产生的时序指标数据积累速度很快,主要反映设备和业务系统运行状态的指标值差异,包括中央处理器使用值、内部存储器使用值、外部存储器使用值、网络带宽占用值、服务进程响应值,此类指标数据必须采用相同的统计模式,保证其具有同类可比性,便于后台系统提高分析精确度。
(2)记录数据:记载着信息系统每天运转中的记事类型信息,每一条记录数据都包含4个因素(人物、
时间、地点、事件),方便对记事类型数据进行审查,能看出哪个人使用,哪年哪月哪日哪时哪分哪秒使用,使用了哪些设备,在设备上做了哪些操作。此外,通过匹配记录数据中的关键字符,可以对核查的关键信息进行抽取。
(3)事件数据:由监测数据或记录数据在特定条件下产生的特殊数据,事件数据记载有特定事件发生时的相关信息,如一般、反常、告警、任务调度事件信息。
(4)配置数据:包含监控对象自身属性和配置属性,记载监控对象之间的相关信息,在监控对象的属性和相关性发生变动时,其数据也随之发生变动。4.3运维指标体系
(1)基于上述采集的运维指标数据规划,可以设
计构建铁路局数据中心运维管理指标体系(见表1)。
表1运维管理指标体系
指标数据分类
运维管理指标
数据
运营管理指标
数据
监测指标数据
告警指标数据
记录指标数据
配置指标数据
操作指标数据
指标数据监控项
服务请求数据、变更请求数据、事件记录数据、工单记录
数据、问题故障数据、应急响应数据
分布式计算用户数据、用户体验指标数据、数据中心运营
指标数据
机房环境设备监控数据、主机资源监控数据、数据磁盘柜
监控数据、网络设备监控数据、安全设备监控数据、计算
机基础系统监控数据、数据读取监控数据、组件和应用连
接程序监控数据、性能监控数据、网页监控数据、双机监
控数据、堆叠监控数据、网络可编译监控数据、心跳同步
监控数据
设备告警数据、虚拟化告警数据、应用告警数据、网络告
警数据
机房环境设备运行记录数据、计算机运行记录数据、数据
磁盘柜运行记录数据、网络设备运行记录数据、安全设备
运行记录数、计算机基础系统运行记录数据、数据存放库
运行记录数据、组件和应用连接程序运行记录数据、备份
系统运行记录数据、分布式计算运行记录数据、业务应用
系统运行记录数据
设备基本信息、主机配置数据、存储配置数据、网络配置
数据、板卡配置数据、阵列配置数据、LUN(逻辑单元号)
配置数据、ZONE(存储网络逻辑隔离区域)配置数据、网
络可编译配置数据、双机配置数据、堆叠配置数据、网络
地址配置数据、防火墙策略配置数据、入侵检测配置数据、
分布式计算配置数据、用户资源配置数据、应用系统基础
配置数据
机房环境设备操作数据、主机操作数据、存储操作数据、
网络操作数据、安全设备操作数据、操作系统操作数据、
批处理操作数据、应用系统操作数据
(2)铁路局数据中心监控对象资源种类很多,需要根据资源的分类变化,定义配置指标的数据模型。监测指标数值、记录指标数值、事件指标数值可以使用相对固定的数据模型,分别是指标模型、记录模型、告警模型、事件模型、配置模型(见表2)。
表2运维指标数据模型
数据模型名称
指标模型
记录模型
告警模型
事件模型
配置模型
数据模型定义
指标名称、指标类型、指标取值、资源序号、采集时间、写
入时间
记录名称、记录来源、记录内容、记录路径、记录级别、记
录容量、记录时间、资源名称、采集序号、资源序号
告警来源、告警级别、告警次数、告警描述、首发时间、尾
发时间、持续时间、处理状态
事件名称、事件描述、事件类型、事件级别、对象名称、创
建时间、结束时间
资源名称、资源种类、配置名称、配置描述、配置模板
5智慧运维应用场景
5.1智慧异常检测
基于AIOps异常检测算法模块,通过分析KPI (关键性能指标,Key Performance Indicators)曲线的状态,判断各监控指标数据是否发生失常。在异常检测算法模块的设计中,选用BP(神经网络,Back Propagation)作为KPI非正常检测的基本模型,并采
用静态阈值检测、动态阈值检测、周期性能分析技术,对异常检测算法进行改进与调优。融合有人工智能代码的动态阈值检测,加入运维指标数据的周期性变化、历史趋势变化、波动幅度变化规律,通过指标数据变化形势进行数字建模,数据经过处理后传入机器学习算法中,生成异常指标分类器,并计算得到合理指标的取值范围。
该设计运用的AI (人工智能,Artificial Intelli⁃
gence )机器学习算法,可实现无阈值KPI 波形非正常甄别检测,具体包括以下3种方式。
(1)LSTM (长短期记忆,Long Short-Term Memory )时间轴往复循环算法,具有最优的分析计算精度,检查测算系统的访问量和时延量为最小,无论高低波动多大的信号图形,都可以精准识别记录;但是,对于起伏波动小、变化缓慢的信号图形,则很难识别出来,检测效果如图3
所示。
图3LSTM 检测效果
(2)K-means (K 均值聚类,K-Means Clustering
Algorithm )平均取值聚合类别算法,是一种多变量统计不断往复计算到答案的方法。通过使用特征查检测,弥补LSTM 算法的不足,在访问量时间变化
缓慢的场景中,有很好的检测效果,检测效果如图4
所示。
图4
K-means 检测效果
(3)随机事件或概率密度检测,是通过以往记录的规律进行计算,以此得出业务成功和系统成功的概率。在成功概率检测曲线中潜藏非常多个取值,必须取一个与系统宕机最相近的值,用于描述异常情况的影响程度,检测效果如图5
所示。
图5概率密度检测效果
5.2智慧故障分析
采用传统运维方式处理故障时,需要运维人员
登录多台设备,对各项指标逐一进行检查,通常只能依靠个人经验进行故障判断,整个排查和处理过程
耗时费力,严重影响系统恢复正常的时效。如果长时
间系统未恢复正常,或是处理过程中有误操作,则会引发铁路安全生产事故。
如今,通过智慧运行维护平台中“业务平台”模块,可以对所有的运维监控数据进行关联分析,然后在知识库中对比故障诊断信息,自动出故障的原因及智能化地提供处理办法。帮助运维人员在用最短的时间内解决问题,增强基层运维能力。5.3
智慧运维辅助决策
时间序列预测是一种模拟推演功能,可以统计和预测云数据中心设备资源的使用情况,便于运维人员全面掌控各种资源的趋势变化,第一时间对系统资源进行调优,避免系统计算压力过大。此外,根据系统资源使用周期消耗情况,还能提前做好资源冗余预案,避免在新上业务的时候,出现应用系统中断的情况。
6结语
本文提出一种适合铁路部门云计算中心发展的
智慧运维一体化平台建设方案,通过全自动脚本进行运维数据采集,运用机器算法替换人工做判断,可
以降低对运维人员专业技术能力的要求,为铁路数字化运维提质增效。依照运维指标体系采集的基础运行数据,虽然可以为业务系统运转提供保障,但是还需深化研究配置管理表单优化技术,缩小运维平台CMDB (配置管理数据库,Configuration Manage⁃ment Database )数据库的体量,为后期挖掘数据价值
做铺垫。
7参考文献
[1]施卫忠.铁路数据中心建设与规划研究[J ].中国铁路,2021(1):1-7.
[2]张伯驹,周亮瑾.数字化转型驱动下的铁路信息系统运维
研究[J ].铁路计算机应用,2021,30(12):1-4.
[3]钟煜明.大数据场景下的云计算性能研究[J ].网络安全技
术与应用,2022(1):63-64.
[4]乐建炜,潘红芹,胡小宁,等.基于工业物联网架构的铁路
数据中心智能巡检系统[J ].铁路计算机应用.2021,30(12):63-69.
[5]黄伟.基于机器学习的AIOps 技术研究[D ].北京:北京交
通大学,2019:13-14.
[6]杨立苑,胡佳军,邓卫华,等.基于Zabbix 的省级气象云监
控运维系统[J ].计算机系统应用,2021,30(8):73-80.