人民银行广州分行IT系统运维管理平台
方案故事
1方案背景
在金融行业激烈的竞争中,广州人民银行不断拓展自己的新业务范围,同时也充分意识到业务服务的高可靠性才是提高对整体服务满意度和忠诚度的核心竞争力。
广州分行目前的IT管理自动化程度低,网管系统和业务系统监控是相对独立的,机房环境监控尚未形成规模,维护人员疲于被动的应对多套管理工具,多种形式的告警,分离的故障和投诉。不仅大大降低了已有网络资源的利用效率和维护人员的工作效率,也造成IT管理严重脱节于企业业务的整体管理,新业务的扩展不断引起IT建设和维护成本的飞涨。随着广州分行网络规模的不断扩大,网络设备数量和各种应用软件系统的渐渐增多,软件和硬件设备出现问题的情况也越来越多,网管人员现在处于一种“救火员”工作方式,就是哪里出现问题,就去哪里救火解决问题。因此,建设IT系统综合管理平台实现对所有IT系统和资源的24小时无人值守就成了当务之急。
广州人行在本系统内经过多年发展已建立了大小二十多个业务系统,每个系统对行里来说说都是至观重要的。
2IT管理需求
建立IT综合管理平台,实现横向对网络系统、业务系统和机房环境的运行状况实行监控,实现纵向对系统管理员、部门领导人、行领导等决策层的多层次监控展现。
2.1性能监测的需求目标
目前银行业采用的IT管理工具大都是以传统的IT元素监控为出发点,基于各自独立的派系式模式,即使在同一网络的不同区域也是各自为政,甚至普遍存在着同一机房中同时使用多套分散监控工具的局面,更谈不上从企业业务的宏观角度去主动管理整体的IT架构。
全新的IT管理理念认为,对IT的管理必须放弃对IT元素的独立管理,而必须作为一个整体统一的管理,只有这样,才能正确表达多个IT资源与业务的关系,实现着眼于业务角度的整合式管理。
这次主要测试的内容有:
监测网络使用情况;
监测网络的通断,并及时报警;
监测每个交换机的端口流量,CPU、内存的状态;
监测服务器的CPU、磁盘、内存、IO及平均负载等信息,出现问题时,能及时报警;
监测Sybase的每个库的运行状况,当出现问题时,能及报报警;
监测Lotus状态,及每一个关键进程的活动状态;
监测IIS状态,及每一个关键进程的活动状态;
监测URL状态,及每一个关键进程的活动状态;
将多个主机和应用,按业务的关系,模拟业务应用进行整体监测
广州人行IT系统现状:大约有30个网络节点(包括:思科、华为、北电、中软银行为什么用db2数据库……
                    主机节点约有40个(IBM、HP……
                    数据库有:SYBASE、ORACLE、MYSQL、DB2
                    WEB应用:WEBLOGIC、WEBSPHERE
                    业务应用:CICS、DOMINO 
自主研发产品及应用等
2.2IT管理的特殊挑战
图表直观、指标全面、易于管理是人行广州分行IT系统管理平台建设的基本要求。
直观是指各种图表能直接反映网络系统的结构,并直接发现运行过程中网络的故障点及存在问题;
指标全面是指各种监控参数应尽可能详细,并能汇总罗列;
易于管理是指尽可能提高图表显示效率,以及调整监控内容时的灵活性。
1.实现集中统一的IT管理。对分行内部分散的多套业务系统、多套备份系统的运行状况监控
都由数据中心的NetGain EM 统一采集,统一调度,统一告警,由统一的管理界面配置管理、显示状态、生成数据报表等。同时又通过用户和角管理,使得各个业务部门又拥有自己独立的用户账号和管理范围和权限。
2.以业务为线索直观管理视图,完全展现业务系统从整体到各个IT环节的运行状态。尤其是能够在被监控的多个应用之间、应用和设备之间、多个设备之间建立有机的业务逻辑依赖关系。使得所有被监控项目被贯穿为一个整体业务视图,在故障和隐患发生时能够直观的反映出受影响的业务和应用,并能够快速定位故障点的位置。
3.按照人行领导的管理需求,需要系统提供人行网络实时拓扑视图,视图间应能建立一定的连接关系。通过几个视图的配合,可实现短时间内对广东内联网情况由面到点的详细了解,能实时了解广州分行辖内、机关内的总体连通情况,能迅速定位网络的故障点。网络拓扑图的监控对象是广州分行内联网中的各主要网络设备的连通情况,包括路由器、交换机和防火墙。
4.全部客户端界面功能通过WEB 浏览器实现。易操作易使用。
5.对应用服务,网络设备,系统服务的监测参数定制灵活。通过图形界面,能够针对不同的容灾监控环境,自动或者手动创建监控对象,配置监控对象的参数,包括主备机名称,轮询间隔 (有5-sec,15-sec,30-sec,1-minute,5-minute,15-minute,30-minute和1-hour),门限设置,告警触发条件等。后台服务模块会按照采集周期,定时访问被监控节点,检测阀值,生成告警。并把采集到的数据记录到历史数据库,以供用户查询和生成报表。
6.告警的集中智能管理: 告警的分类查询, 合并压缩重复告警, 告警过滤机制, 告警映射机制, 事件相关性分析,通过不能的告警模式,可以有针对性的对容灾系统中出现的问题做出快速而明确的判断。
7.提供灵活多样的故障处理机制:多种方式的告警自动通知;
8.提供符合电信规范的告警处理机制:告警的确认、反确认、导出、评注、专家建议等。
9.灵活的适应性:最大限度降低银行系统需求多变带来的风险。基于NetGain EM的系统方案采用先进的面向对象体系结构,所有的管理对象都以树型结构的模型定义,使得管理系统具
备高度灵活性。当容灾系统中的网络设备、网络结构、业务结构发生变化和调整时,只需要在管理系统中进行简单的拖拽操作,就能够完成相应的管理模型调整。整个管理系统能够不断自适应日后容灾系统的调整和相关业务的调整。
3方案实施预期效果综述
a)、作为预集成的完整OSS解决方案,为广州人行提供的一体化IT管理方案不是多个软件产品的复杂集成,而要成为一个一步到位的、实用的人性化管理工具。
我们的方案区别传统方案的突出特定就是平台的完整性和一步到位。能够统一支撑各种网络设备、主机服务器、数据库、中间件、通用软件、专有设备及专有业务系统的完整管理平台。广州网络的小型计算机、PC服务器、在各主机系统上运行的有Lotus Notes、SYBASE、WEB服务、FTP服务、Email服务等,以及网络管理、业务管理和办公自动化等一系列管理信息系统统一整合到一个网络管理中。
网络维护人员只需要通过一个的统一管理界面来快速、形象、直观地查看网络状态,使系统维护人员能够地作出正确的判断问题根源。
b)、根据需求目标,我们要把广州整个信息工作内容进行了一次全面的梳理,把依赖IT平台的所有业务分为各类业务服务系统并建立各自不同的以IT设备为依赖的业务视图,这样当IT设备出现问题,从业务视图中就可以直观的看到将会影响到哪些业务的正常运行,从而大大的降低了管理人员查排查问题的时间,进而将时间用在解决问题上。转变IT支持部门面向网络元素支持为面向业务、面向客户服务,改被动性局部维护为主动性宏观管理,重视预警机制和智能分析,致力于提高企业整体运营品质,提高资源的利用率。