模块化机房解决方案
OneCenter-⼀体化智能运维管理平台-解决⽅案(长沙市轨道交通集团)
让运维更智能,让业务更⾼效
OneCenter⼀体化智能运维管理平台解决⽅案
长沙市轨道交通集团
技术⽅案建议书
勤智(北京)科技有限公司
2017.8
_____________
⽬录
第1章.⽅案概述 (4)
1.1.项⽬背景 (4)
1.2.需求分析 (4)
1.3.建设⽬标 (6)
1.3.1.建⽴统⼀运维门户 (6)
1.3.
2.建⽴IT异构资源的全⾯集中化管理 (6)
1.3.3.建⽴全⾯准确的资产配置管理 (6)
1.3.4.建⽴符合最佳实践的服务流程管理 (7)
1.3.5.建⽴IT资源全⾯直观的可视化管理 (7)
第2章.解决⽅案 (8)
2.1.系统设计原则 (8)
2.1.1.实⽤性和模块化原则 (8)
2.1.2.⼀致性和开放性原则 (8)
2.1.
3.安全性与可靠性原则 (8)
2.2.系统安全设计 (9)
2.2.1.⽤户安全机制 (9)
2.2.2.SSO统⼀认证 (9)
2.2.
3.权限分权分域 (9)
2.3.系统建设⽅法 (9)
2.3.1.体系架构 (9)
2.3.2.功能架构 (12)
2.3.3.技术架构 (13)
2.3.4.部署架构 (13)
第3章.功能概述 (14)
3.1.运维监控系统 (14)
3.1.1.统⼀运维管理 (14)
3.1.2.资源监控管理 (17)
3.1.3.拓扑管理 (32)
3.1.
4.IP地址管理 (41)
3.1.5.告警管理 (43)
3.1.6.业务管理 (47)
3.2.3D机房管理 (50)
3.2.1.监控可视化管理 (51) 3.2.2.资产管理可视化 (56) 3.2.3.机房3D图形化展⽰ (58) 3.2.
4.配线可视化管理 (59) 3.2.
5.容量可视化管理 (61) 3.2.
6.资源分配情况管理 (63) 3.2.
7.上下架可视化 (64)
3.2.8.⾃定义动画 (65)
3.2.9.交互式演⽰汇报 (65) 3.3.配置⽂件管理 (66)
3.3.1.巡检管理 (66)
3.3.2.机房虚拟现实展现 (69) 3.3.3.资产管理系统 (71)
3.3.
4.供应商管理 (71)
3.3.5.配置建模管理 (72)
3.3.6.空间资源管理 (74)
3.3.7.配置项导⼊ (75)
3.3.8.配置项管理 (76)
3.3.9.配置项视图 (78)
3.4.运维流程管理系统 (80) 3.4.1.服务台 (80)
3.4.2.服务设计 (86)
3.4.3.服务产品设计向导 (87) 3.4.4.服务流程管理 (102) 3.4.5.服务量化管理 (130)
3.4.6.值班管理 (145)
3.4.7.任务管理 (150)
3.4.8.公告管理 (151)
3.4.9.移动终端运维 (152)
3.4.10.报表统计分析 (153)
3.4.11.第三⽅接⼝ (157)
3.4.12.运维知识库系统 (158)
3.5.统⼀运维⼤数据管理分析系统 (164)
3.5.1.统⼀运维⼤数据基础系统 (164)
3.5.2.统⼀运维数据分类管理 (164)
3.5.3.运维⼤数据检索与展现 (168)
3.5.
4.海量⽇志⽂件分析 (171)
3.5.5.指标动态基线预测 (174)
3.5.6.运维⽀撑能⼒评估 (176)
第1章.⽅案概述
1.1.项⽬背景
长沙市轨道交通集团有限公司(以下简称轨道集团)于2006年6⽉根据长政办函〔2006〕79号⽂件筹建成⽴。2007年1⽉,根据市编委《关于成⽴长沙市轨道交通建设管理办公室的通知》(长编委发〔2007〕3号)精神,⼜成⽴了长沙市轨道交通建设管理办公室(以下简称轨道办)。2009年4⽉,市委、市政府对轨道集团进⾏重组,并撤销轨道办。重组后的轨道集团为国有独资企业,注册资⾦50亿元,主要承担轨道交通项⽬的融资、投资、建设、运营、管理。
公司现设18个部门、13个⼦公司、1个分公司及6个参股公司,各部门、公司下设专业科室,履⾏相应职能职责。
公司以“品牌企业幸福员⼯”为企业愿景、“奉献担当、严谨创新、忠诚守纪、协同共享、⾄善超越”为企业
核⼼价值观,在“安全地铁、精品地铁、绿⾊地铁、经营地铁、⼈⽂地铁”的发展理念指引下,公司员⼯铭记“强企兴业、责任在我”的企业座右铭,在轨道事业的征程中,齐⼼协⼒、勇往直前。
众所周知,科技是现代化建设的第⼀⽣产⼒,当今社会正在逐步向信息化、⽹络化、数字化发展。轨道集团的信息化建设也在不断扩⼤,随着业务迅猛发展,轨道集团的IT信息系统规模⽇益庞⼤,IT业务应⽤也在不断增多。由于多系统、多业务、多⼚商设备等原因导致IT⽹络管理环境复杂多变, IT维护难度成⼏何倍数增长, IT信息科技⽅⾯的风险及隐患也在不断的加⼤,如何保证整个IT系统稳定安全的运⾏也逐渐成为轨道集团的管理层和IT运维⼯程师⽇益关注的问题。
在过去的IT运维管理中,由于没有⼀套先进的IT运维监控管理系统,使得客户对业务系统的运维管理⽐较被动且滞后。当系统出现严重故障时才能发现该异常,导致故障处理速度较慢,有时甚⾄会影响业务系统的正常运⾏。所以,及时准确的了解设备性能、资源利⽤率、业务系统运⾏瓶颈等指标对于客户的信息化建设有不可或缺的参考价值。
综上所述,客户对信息中⼼各项运维⼯作提出了更⾼的要求,系统管理⼈员的⼯作压⼒越来越⼤。因此,对于轨道集团,建设⼀套功能先进、安全可靠的IT运维监控系统势在必⾏。
1.2.需求分析
通过对客户的信息化建设和运维管理现状的调研和深⼊分析后,了解到⽬前客户IT运维发展的现状:
公司IT应⽤不断扩⼤,越来越多的应⽤和业务在⽹络上运⾏,对⽹络的依赖越来
越⼤,缺少⼀套针对IT软硬件的统⼀监控系统,⽆法及时了解IT软硬件设备的运⾏
趋势,⽆法快速故障定位,故障处理效率低;
业务服务的规模增⼤,规划、维护、安全、管理等分⼯更加细致,缺乏对业务系统
健康状况和运⾏趋势的监测,⽆法判定业务系统是否存在运⾏瓶颈、是否需要扩容或
⽹络调优;
⽆法对多种设备系统、业务系统的运⾏信息、告警信息进⾏集中管理,并对以上信
息进⾏智能化分析、统计,得出有利于⽹络管理和维护的数据,达到⾼效、快捷处理
问题的⽬的;
全⽹资产配置情况、使⽤状况和分布情况难以及时了解;
缺乏对数据中⼼机房多样化资产可视化再现能⼒,不利于运维管理⼈员对机房资源
的全⾯掌控;
前端视频监控设备建设规模的不断扩⼤,缺乏有效的视频监控⼿段,⽆法诊断视频
质量及内容,影响安全防护⼯作的开展;
⾯对复杂的IT环境,缺乏规范化、⾃动化的运维管理流程,缺乏完善的故障处理
和快速修复机制;
管理⼈员不断增多,管理流程⽇益复杂,管理成本不断上升,没有建⽴统⼀、规范、
层次化的服务管理流程和技术管理体系,同时缺乏对IT部门运维⼈员量化考核的依据;
缺乏能够真实反映设备和业务运⾏情况与运⾏质量的统计分析报表,⽆法为决策层
提供数据依据。
通过对客户信息化和运维管理现状的深⼊了解,其运维服务需要改变传统的运维管理模式,变被动式为主动式运维,切实达到7*24⼩时不间断运维,进⽽保障客户的业务系统正常运转。因此该客户的信息中⼼运维服务管理平台的具体要求如下:
能够全⾯详细地监视系统中所有IT资源的运⾏情况,提供⼀致的系统管理风格
能够实时监视⽹络和业务的性能状况,能够通过客观数据分析当前系统性能状况和
长期系统性能变化规律和趋势,为系统升级和扩容提供科学的依据。
具有全⾯⽽深⼊的数据库管理功能,保证数据库系统的可靠和⾼性能运作,从⽽使
数据库变成最优的后台⽀撑系统。
提供运营商级IT系统中所需要的各种功能,及集成化的管理模式,可降低系统管
理的成本
实现业务可视化管理,分析深层次原因等问题
1.3.建设⽬标
根据轨道集团数据中⼼信息化现有的建设和运维管理现状,此次OneCenter⼀体化智能运
维管理平台的建设⽬标有:
1.3.1.建⽴统⼀运维门户
通过建设统⼀的运维门户Portal,作为整个⼀体化智能运维管理平台的统⼀⼊⼝,具备统⼀认证、单点登录、⾃定义⾸页⼯作界⾯、分权分域管理等功能,统⼀建⽴⽤户账号,实现简
单化⽤户管理。OneCenter⼀体化智能运维管理平台提供运维管理门户⽹站、移动APP、个⼈⼯作台、⾃助服务台等多种形式的服务窗⼝。
向上对接上级轨道集团门户,实现从上级门户到运维门户的访问流程;
向下对接集成展⽰动环监控、云平台监控、其他第三⽅系统等内容,并实现轨道集团信息系统的统⼀⽤户管理,实现统⼀认证登录;
平台提供资源监控管理,运维服务流程管理等功能,在⼀个统⼀界⾯上形成快速呈现⼯作内容,提⾼⼯作效率。
1.3.
2.建⽴IT异构资源的全⾯集中化管理
随着IT信息化规模的发展和信息化建设⽔平的提⾼,轨道集团信息化建设已达到相当规模,设备种类多且规模⼤(⽹络设备、服务器、存储等);涵盖不同⼚家,各种型号的IT设备,涉
及传统的物理设备和云计算平台。
通过OneCenter⼀体化智能运维管理平台,以统⼀监控管理为中⼼,实现对数据中⼼信息
化IT基础设施的集中监控管理,提供数据中⼼基础软硬件资源及各类应⽤的监控管理,包括对⽹络设备、安全设备、服务器、存储、数据库、中间件、业务应⽤系统、虚拟化资源、⽹络服
务等性能采集和事件处理,同时⽀持与第三⽅系统(如动环系统、安防系统、应急指挥系统等)对接,构建统⼀集成的系统资源监控平台,主动、及时地发现问题,解决被动服务的局⾯,提
供集中的监控告警管理及监控性能数据展⽰。
此外,通过OneCenter⼀体化智能运维管理平台的⾃动化运维功能,管理平台能够在故障
发⽣时⾃动获取故障设备相关的各项指标数据及指标状态,确保相应告警和事件发⽣时的状态
能够详细记录并关联,在必要时能够实现⾃动恢复、⾃动化巡检、批量操作作业等运维⾃动化
场景。
1.3.3.建⽴全⾯准确的资产配置管理
做好数据中⼼的IT运维管理,⾸先必须对种类繁多、规模庞⼤的IT资源进⾏有效管理,
以免信息的更新不及时,造成信息难以统计、查询、分析和利⽤。理清IT资产配置台账,梳理
配置项之间的关联关系,做好资产⽣命周期管理,这是实现数据中⼼⼀体化运维管理的基础。
通过统⼀的配置管理库(CMDB),实现对云数据中⼼所有IT资源的配置信息管理,保证配置项的完整性和精准性,构建运维管理元数据,帮助⽤户建⽴统⼀的IT基础设施台帐。通过⼀系列配置建模、⾃动采集、调和、变更控制等⼿段,保证IT⽣产环境中配置项的完整性和精准性,为资源监控和服务流程提供数据⽀撑。
1.3.4.建⽴符合最佳实践的服务流程管理
OneCenter⼀体化智能运维管理平台的流程管理提供了⾯向于最终⽤户的服务⽬录及服务级别管理,并提供规范的ITIL服务⽀撑流程及资产管理流程。通过流程管理系统进⾏IT运维服务的流程化、规范化管理;通过与底层统⼀监控系统的集成,实现了IT运维的⾃动化;通过完善知识库建设,实现知识库共享;
从⽽提⾼信息服务效率,提⾼⽤户的满意度,帮助⽤户有效管理⼈员、信息、资产和知识库,为IT服务管理的规范化建⽴基础。
1.3.5.建⽴IT资源全⾯直观的可视化管理
通过OneCenter⼀体化智能运维管理平台,⽤户可以实时查看管理对象的⽇常运⾏情况,操作简单,界⾯直观明了。在信息集成的基础上,通过提供的各种运⾏分析和性能报告,形成全⽹统⼀管理数据视图,提供关键绩效指标体系所需数据基础,管理⼈员能根据这些数据准确评估整个IT环境运⾏情况,及时发现故障隐患和评估威胁。平台预留了符合国家信息技术服务标准(ITSS)的多种对外标准接⼝,能够实现和第三⽅系统的功能或数据集成对接,包括短信系统、邮件系统等,有效整合信息展⽰。
通过3D可视化管理功能,能够以3D技术实现对数据中⼼的真实展现,实现基于三维环境对数据中⼼、机柜和各类设备的管理功能,构建数据中⼼环境、设备和管理信息的可视化平台,实现所有资产对象的管理及相关监控信息整合展⽰,让相关管理⼈员清晰直观的掌握IT运营中的有效信息,实现透明化与可视化的管理。
第2章.解决⽅案
勤智运维通过多年来在电信、⾦融、政府等⾏业的应⽤开发与维护经验,在国内⾸创基于ITIL的企业级
业务服务管理平台。针对企、事业单位的IT⽀持和管理部门,OneCenter⼀体化智能运维管理平台基于ITIL的IT服务管理思想,整合了系统监控、应⽤监控、⽹络监控、机房监控、虚拟化资源管理、⼯作流、ITIL式报表和门户等多种技术⼿段,帮助⽤户解决IT⽀持与管理过程中的难题,提⾼IT服务⽔平和⼯作效率。
OneCenter⼀体化智能运维解决⽅案是在基础架构管理、应⽤管理、业务服务管理的基础上,通过IT流程管理,帮助客户建⽴以ITIL流程为框架的⼀体化智能运维管理系统,实现⾃动化和规范化管理。