工业大数据分析综述:模型与算法
摘要:随着条形码、二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等信息技术在工业领域的广泛应用,大量与工业生产活动相关的数据被实时采集并存储到企业的信息系统中。对这些数据进行分析,有助于改进生产工艺、提高生产效率、降低生产成本,为实现智能制造奠定基础。因此,工业大数据分析引起了工业界和学术界的广泛关注。模型和算法是大数据分析理论和技术中的两个核心问题。介绍了工业大数据分析的基本概念,综述了几种流行的工业大数据分析模型在工业大数据分析领域的应用情况以及相应求解算法方面的研究成果,并探索了大数据分析模型和算法的未来研究方向。
关键词:工业大数据; 大数据分析; 模型; 算法; 智能制造
1 引言
当今时代,信息化和工业化的融合已经成为发展趋势,《中国制造2025》指出:“新一代信息技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、产业形态、商业模式和经济增长点”。工业大数据在两化融合过程中起着至关重要的作用,国务院颁发的《促
进大数据发展行动纲要》把发展工业大数据列为主要任务之一:“推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,分析感知用户需求,提升产品附加价值,打造智能工厂。建立面向不同行业、不同环节的工业大数据资源聚合和分析应用平台”。工业大数据是指在工业领域中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、射频识别(radio frequency identification,RFID)、工业传感器、工业自动控制系统、工业互联网、企业资源计划(enterprise resource planning,ERP)、计算机辅助设计(computer
aided design,CAD)、计算机辅助制造(computer aided manufacturing,CAM)、计算机辅助工程(computer aided engineering,CAE)等技术在工业企业中得到广泛应用。互联网、移动互联网、物联网等新一代信息技术在工业领域的应用使得工业企业也进入新的发展阶段,其拥有的数据也日益丰富。尤其是制造企业中生产线处于高速运转的状态,工业设备上产生了大量数据,同时,企业中人和计算机也产生了大规模数据。
例如,通用电气公司(GE)能源监测和诊断中心每天从客户那里收集10 GB的数据[1],长虹
集团有限公司等离子显示板生产流程数据涉及超过10 000个参数,每天产生3 000万条记录,数据量大约为10 GB[2]。杭州西奥电梯有限公司的数字化车间监控超过500个参数,每天产生约50万条记录;浙江雅莹服装有限公司数字化生产线由15个子系统组成,每天产生约80万条记录,数据量大约为1 GB。
模型和算法是大数据分析中的两个核心问题。大数据分析模型的研究可以分为3个层次,即描述分析、预测分析和规范分析。描述分析探索历史数据,并描述发生了什么,这一层次包括发现数据规律的聚类[3]、相关规则挖掘[4]、模式发现[5]和描述数据规律的可视化分析[6];预测分析用于预测未来的概率和趋势,例如基于逻辑回归的预测[7]、基于分类器的预测[8]等;规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议,例如基于模拟的复杂系统分析[9]和基于给定约束的优化解生成[10]。大数据分析算法的研究则针对特定的分析模型设计高效的算法,并研究如何提高算法的可扩展性、实时性等。工业大数据除了具有大数据的5V (volume、velocity、variety、value、veracity)特征,还具有诸多与工业生产特性密切相关的特征,如数据来源多样、数据质量低、数据蕴含信息复杂、耦合不确定、数据实时性高等,这使得工业大数据分析的模型更加复杂多样,对算法的实时性要求更
高。
目前,工业大数据分析的理论和技术研究仍处于起步阶段,分析模型以简单的单一模型为主,分析算法主要是通用的数据挖掘算法。本文对工业大数据分析模型和算法的研究现状进行了综述,总结了大数据分析模型在工业场景中的应用,并对工业大数据分析模型的常用求解算法进行概述和评价。
2 大数据分析模型在工业中的应用
数据可视化的概念
大数据分析模型按照输入输出的形式,主要有关联规则分析、分类分析、回归分析和聚类分析,这些分析模型以及它们的组合被应用于多种实际工业场景的分析任务中,如工艺参数优化、产量预测、故障检测和诊断、客户需求分析和服务类型识别等。
2.1 关联规则分析模型
关联规则挖掘是针对购物篮分析的问题提出的,其最初的目的是挖掘交易数据库中不同商品间存在的关联关系,以此得到顾客购买模式的一般性规则,并用这些规则指导商家进行合理的货架设计。在实际工业过程中,许多场景可以用类似的关联关系建模,用频繁项集挖掘的
方法来获取隐含规则,用数据和知识驱动的方式来代替传统的大量依靠经验的决策方式。
在工艺参数优化方面,参考文献[12]针对钢铁制造工艺,用关联规则分析制造过程中的化学成分(如碳、锰、磷、硫等)的含量、出钢温度和轧制速度对产品机械性能的影响。
在能耗优化方面,参考文献[13]用关联规则分析从大量历史能耗数据中获取生产参数对能耗影响的规则,以此来指导企业改进生产参数,优化能耗。
在工艺标准优化方面,参考文献[14]用关联规则分析服装款式、材料、年龄对实际工时与标准工时差异的影响程度,作为标准工时优化的依据;参考文献[15]用关联规则模型评估导致标准工时不合理的影响因素;参考文献[16]用关联规则挖掘模具企业计算机辅助工艺过程设计(computer aided process planning,CAPP)改模知识库,以此指导工艺设计,提高改模工艺继承性与重用性,促进改模工艺标准化。
在产品质量优化方面,参考文献[17]关注装配顺序对产品质量的影响。首先用关联规则的方法从历史数据中抽取规则,再经人工整理,获得简洁有效的装配知识和规则,以此指导产品按合理顺序装配。
在企业的供应链管理方面,参考文献[18]用关联规则分析机械制造企业外购件间的隐含关系,指导企业制定采购计划;参考文献[19]用关联规则模型分析汽车企业产品价格、供应商评价、退货原因间的关联关系,以此建立采购决策支持系统;参考文献[20]用关联规则模型评价和选择供应商。
在销售和售后方面,参考文献[21]从卡车制造商的角度出发,用关联规则分析经销商订购车型间的关系,以进行品牌推广;参考文献[22]将关联规则运用到笔记本电脑接单制造(build to order,BTO)生产计划中,挖掘用户配置选择的关联关系,从用户和市场需求的角度出发,为生产计划制定提供合理依据;参考文献[23]用关联规则对钟表企业物料清单中的历史数据建模,分析不同零部件组合的产品的客户认可度和盈利能力,以此为基础制定营销策略;参考文献[24]在客户关系管理(customer relationship management,CRM)中运用关联规则来预测客户行为;参考文献[25]用关联规则分析通信设备制造业不同地区的销售特征,预测流失客户。
除了直接用关联规则模型进行工业大数据分析之外,也有研究者用关联规则对工业数据进行预处理,再结合其他方法对处理过的数据进行分析。参考文献[26]针对半导体制造工艺过程
中机器故障由多因素引起、因素间非线性的特点,提出了RMI (root-cause machine identifier)综合处理程序。其关键步骤之一就是用关联规则模型对数据进行处理,得到候选集,再在候选集上进行计算来定位和发现机器缺陷;参考文献[27]用关联规则对毛毯制造数据进行降维,到关键属性集,再利用关键属性集分析毛毯制造过程中出现故障的原因和相应的规则,帮助识别和定位故障。
2.2 分类模型和回归模型
分类模型和回归模型在基于大数据的分析、判断和预测领域具有广泛应用。其中,分类模型主要针对离散属性值的判断和预测,如故障检测和诊断、客户细分;而回归模型主要针对连续属性值,如产品的产量、销量。决策树模型和神经网络模型是基于工业大数据的分类和回归分析中的主要模型。
决策树是一种树形结构,用来表征对象属性与对象值之间的映射关系。决策树模型简单直观、可解释性强,具有良好的分析和预测能力,适用于工业大数据分析的诸多场景。
在工艺参数优化方面,参考文献[28]用分类决策树对玻璃镀膜工艺建模,根据给定的工艺参
数预测产品质量,从而帮助企业快速确定符合预期质量产品的工艺参数。在成本优化方面,参考文献[29]用决策树模型筛选对工艺成本影响最大的工序,通过控制和改进筛选出的工序优化整个工艺路线的成本。在工艺标准优化方面,参考文献[14]用决策树模型对服装标准工时系统的数据进行分类,再在每一类数据上进行挖掘。在
产品质量监控方面,针对传统冷轧产品缺陷检测方法和检测标准不一、漏洞和误判多的问题,参考文献[30]使用生产数据训练二分类和多分类决策树,挖掘出定位产品缺陷的规则,以此帮助企业快速准确地检测出生产产品的缺陷。类似地,在故障检测方面,参考文献[27]用毛毯制造数据训练决策树模型,得到导致生产线故障的规则,并用这些规则指导相关人员识别和定位生产线故障,大大提高了毛毯生产的效率;参考文献[31]用提升机各系统的监测数据训练决策树,表征故障隐患。在生产调度方面,决策树模型受到了广泛关注。参考文献[32]针对离散制造业静态Job Shop调度问题,用决策树模型提取调度知识,优化调度方案;参考文献[33]将工单数据和机器加工数据作为历史数据训练决策树模型,并用训练好的模型实时为工件安排机器进行加工,充分利用生产资源,实现智能化生产;参考文献[34]用决策树模型分析机器细小位置移动次数和机器效率对停止次数的影响规律,作为机器调整和检测的依据,有助于车间设备、人员的调配。在采购方面,参考文献[35]用决策树模型挖掘汽车
产品销售数据,指导管理者制定合理的采购计划。在客户关系管理方面,决策树模型被广泛用于客户的评价、细分和预测。参考文献[21]用决策树模型分析卡车经销商的重要程度;参考文献[36]用决策树模型将已有客户按其忠诚度分类;参考文献[37]则用决策树模型来预测客户的忠诚度,以帮助企业发掘潜在客户;参考文献[24]用决策树模型挖掘客户潜在服务需求,帮助企业从被动服务模式向主动服务模式进化;参考文献[38]用决策树模型分析客户评价,以此衡量产品的满意度指标;参考文献[39]用决策树模型预测潜在流失客户,指导企业维系客户关系。此外,在制造业企业的管理流程优化方面,参考文献[40]对机械制造企业的信息管理系统建立处理部门归属决策树模型,以规范管理流程,提高企业各部门间的协调运作效率。