大数据技术在核电厂经验反馈中的应用
摘要:经验反馈是指对事件、质量问题和良好实践等信息进行收集、筛选、评价、分析、处理和分发,总结推广良好实践经验,防止类似事件和问题重复发生。全世界所有核电厂均在研究如何更好的做好经验反馈,以防止事件的重发,降低人员伤亡和经济损失,保障核电厂能安全、可靠、经济的运行。对于运行多年的核电厂,已积累大量经验反馈数据,如何处理海量经验反馈数据成为首要问题,本文将以经验反馈大数据平台实践经验,探讨如何实现经验反馈数据的精准检索、分类、推送与充分利用。
关键字:核电;经验反馈;大数据
1.引言
近些年生产安全事件频发,企业的安全生产已经越来越受到国家重视,安全生产不仅是涉及职工生命安全的大事,也关系到企业的生存发展和稳定,还关系到社会。核电厂作为国家电力系统的重要组成部分,近年来核电运行机组的安全稳定运行已成为首要任务,目前国内核电已运行机组数量多并且涉及型号广,加上许多电厂运行多年,已积累了大量运行事件。如何能
够很好的利用并学习已发生的事件,预防事件的重发,提升机组运行安全性,降低人员伤亡和经济损失,保障核电厂能安全、可靠、经济的运行成为亟需解决的问题。
1.经验反馈大数据发展方向
2.1 经验反馈数据利用现状
当前各电厂各自经验反馈系统已积累了大量内外部经验反馈数据,比如:状态报告(CR)、由状态报告开发出的运行事件报告、内部事件报告、纠正行动计划、JIT(及时经验反馈)、工单信息(包含工单任务、风险分析、完工报告等)、质量缺陷报告(QDR)等。这些数据均分散在不同的业务系统中,没有得到有效的整合,业务部门主要通过经验反馈处的定期推送和自身的主动检索进行学习,但定期推送无法满足业务人员对当前工作中历史经验反馈的实时需求,且目前的检索方式不太智能和精准,往往得不到最想要的经验反馈数据信息。由于该部分数据资源的加工利用主要通过人工来完成,利用效率低,没有全面转化为提升企业竞争力的数据资产,数据挖掘利用的层次较低,未能高质量的实现经验反馈。为了更好的利用该部分数据资源,让其转化为越用越有价值的企业资产,同时最大程度上提升经验反馈的效果,需要对该部分数据进行大数据分析与应用,以便实现广义经验反馈数据
的深度挖掘和利用。
2.2经验反馈大数据发展方向
2.2.1经验反馈数据整理与清洗
经验反馈数据以结构化数据为主,也包括非结构化数据,数据在挖掘和应用过程中,应该进行预处理。预处理需要专业人员对数据结构、数据表单和字段等进行分析后再作处理。预处理主要是对具体数据的字段进行选取,不需要的字段将其剔除,降低数据语义分词的难度。预处理包括数据清理与数据集成。数据清理将进行数据格式标准化、异常数据清除、错误纠正、重复数据的清除。数据集成将不同数据源中的数据进行整合并统一存储。
2.2.2历史经验反馈数据的智能检索
面对海量经验反馈数据,需要高效快速进行检索,数据检索的高效化与智能化尤为重要。搜索引擎的架构设计应能够针对已整体域清洗后的数据,通过建模与分词服务,实现快速查询、关联查询、精确查询功能。
2.2.3 历史经验反馈数据的精准推送
将经验反馈数据与工单等应用系统进行关联,通过推送方式将经验反馈数据融入到应用系统中。如在工单准备阶段,根据工单输入的工作内容,经验反馈大数据平台依据工单信息中的设备、位置、工作内容等情况,自动推送与工单相关联历史经验反馈信息,工作准备人将该工单相关的历史经验反馈信息纳入工作包,在工前会期间,工作负责人可对历史经验反馈数据进行学习,避免同样的事件再次发生。
1.经验反馈大数据体系建设探索
建设经验反馈大数据体系,首先需要针对历史数据进行抓取并开展梳理,保证数据的实用性与可用性;根据已构建数据平台,实现智能检索功能,使用户能够高效获得经验反馈数据;与其他应用系统联动,完成精准推送功能,使经验反馈数据真正融入日常工作之中。
3.1经验反馈大数据平台应用架构建设
本次研究经验反馈大数据平台处理的数据量约200万条,面对如此数据量,数据存储不再适合传统的数据存储方式,因为传统的数据存储方式已经无法为数据的快速分析和搜索提供支持。为了满足搜索需要的快速存取以及磁盘的快速读/写,本研究采用Hbase(Hadoop Date
base)框架,通过运用HBase中的各种组合件实现对经验反馈的大数据应用。Hbase是开源的非关系型分布式数据存储系统,也是基于列存储模型的分布式数据库。Hbase具备高可靠性、高性能、面向列、可伸缩、易扩展、数据模型灵活、支持随机和实时读/写等优点。
经验反馈大数据平台技术构如下图所示:
 
图1 经验反馈数据平台技术架构
在已有大数据平台的基础上,架设ETL数据抽取、词库管理、数据管理、用户管理4个基础功能,在基础功能之上构建自然语言分词服务、Solr全文检索服务2个核心功能,而在核心功能之上架设精准检索、智能推送、专业词库管理3个应用。即从下到上为大数据平台、基础功能、核心功能、应用。自然语言分词服务、Solr全文检索,为上层提供稳固、高性能的功能服务支持。词库管理和与物资大数据项目的专业词库可以共享使用,相互补充。
总体分为四层架构,各层功能如下:
数据采集层:从秦山核电相关的生成系统中采集结构化和非结构化数据,作为ETL的数据源。
hbase应用案例数据计算层:根据数据模板对采集到的数据进行数据清洗、内容分析、关键词提取、数据归约等处理,完成数据的分析归类及词库的关联权重处理。
数据服务层:对计算后的数据进行索引处理和存储,为数据应用层提供搜索和智能语意分析处理,实现智能搜索和推送服务。
数据应用层:提供相应的Resetful 数据调用接口和数据应用界面服务。
3.2经验反馈大数据平台采集架构建设
本研究涉及的数据源主要包括生产管理工单系统、经验反馈系统等的数据库中的数据内容,这些内容被抽取到大数据平台中。采用Kettle 配置结构化数据源,将核电生产系统中的历史数据表进行全量抽取,对实时数据进行增量抽取。采用Logstash 对核电生产系统中非结构化日志进行采集。Spark 通过Spark Streaming以及RDD操作进行数据流的处理以及逻辑分析,将最终结果数据存入Hbase 数据表中。
经验反馈大数据平台采集架构如下图所示:   
图2 经验反馈数据平台采集架构
3.3 经验反馈大数据平台智能检索
针对精准检索的使用场景,精准检索都是通过用户在检索入口进行关键词或语句的输入,系统采用基于语义分析和搜索引擎的技术来匹配历史经验反馈信息与输入关键词或语句的相似度,根据相似度的排序输出检索结果。