大数据驱动的PHM技术和应用
演讲嘉宾:百分点刘译璟
本文是百分点集团技术副总裁刘译璟博士在China Hadoop Summit2016北京站的演讲文字版。刘译璟博士从“大数据及相关技术”、“PHM技术简介”、“百分点大数据PHM方案”、“百分点PHM实践”四个方面分享了故障预测与健康管理(PHM)。以下要点可以帮您迅速了解PHM技术,想了解更多的演讲内容可以查看演讲实录。本文的PPT下载和音频下载请参考该文。
首先,我介绍一下百分点对大数据的定义,因为这涉及到我们的方法论和方案是怎么产生的,然后我介绍一下PHM到底是一个什么技术,接下来我会介绍PHM的一些方案以及具体案例。
-
百分点对大数据的定义
我先介绍一下大数据及相关的一些技术。关于大数据的概念大家在网上一定能搜到很多,我在这里列了三个,《维基百科》、《大数据时代:生活、工作与思维的大变革》、白宫《大数据白皮书》,它们从不同的角度,数据量的大小,在数据集上能做的事以及多元异构的数据。在我看来,这些都是非常片面的,并没有很完整的说出大数据的定义。
那么我们怎么理解大数据呢?我想从三个和BigData很类似的词来讲一下,Data大家都知道,加了一个Big就变得有点虚无缥缈了,Big在英文里通常是有一些贬义的意味,它其实想说的是不自由。那我举了三个同样的词,Big Brother,这是《1984》这本小说里的一个人物,但是这个人物从来没出现过,我不知道大家有多少人看过这本小说,我大概讲一下,小说中讲到1984年的时候世界上有三个国家,其中一个是大洋国,这个国家有唯一一个政党,这个政党有唯一一个领袖,这个领袖我们都称他为老大哥,任何时候沟通时我们都非常的小心,因为老大哥看着我们,如果我们不小心说了敏感的话,老大哥会让人把我们抓去再教育一番,这个小说里是这样一个背景。这个Big Brother中跟Big Data我理解是一个意思,大家感受一下。第二个词Big Government,就是大政府,中国是一个大政府,而美国是小政府,这个大小一点也不体现在体量上,而是体现在政府和市场或者政府对社会的控制力上,这是第二个词。然后第三个词,就比如说,现在我们可以称中国的三桶油叫做Big Oil,因为生活中时时刻刻都离不开它。就是从这些相似性的概念出发,我认为什么是Big Data,事实上就是无处不在的数据。
那IT时代和DT时代到底有什么样的区别呢?上图中描述的是百分点在大数据方面最核心的一个观点。在IT时代,我们面临一些现实的业务,这些业务在运作的过程有可能会变得复杂,我们会去建一些业务系统,这些系统让业务更加流程化,自动化。然后在业务运作中沉淀下来许多数据,信息化时代我们强调的是自动化。到了数据时代,DT时代,我们不是盯着单一的一个业务,而是整个现实世界,我们想尝试通过数据化的手段构建一个数据世界,这个数据世界在某种程度上反映了现实世界的,然后在这个数据世界之上,再去构建自己的系统,这个系统通过数据世界它就能够了解到现实是什么样的,从而变得智能化,这是自动化到智能化的一个变化。今天很多人讲工业4.0,关于4.0就是从1.0的机械化,2.0的电气化,3.0的自动化到4.0的智能化,整个信息化的发展都在进行从自动化到智能化的转变。
今天我们讲的PHM技术,实际上就是工业4.0或者是叫工业智能化里面非常核心的技术。根据刚才的分析,如果让我给大数据下一个定义的话,我一定会把它定义成这两方面,一个是说这是一个理念层面的,我们对事物发展都需要量化成数据化把它记录下来,第二个是我不仅要记录下来,还要进行一些处理和分析,我要有一些具体落地的手段,在这里体现一系列的技术和方法,包括数据如何去采集,如何存储,如何分析以及最后如何应用到现实的系统里面去。大数据的概念一定包含了这两方面,缺一不可。
我再聊一下未来信息化发展过程中,至少有这五个技术,即云大物移社(云计算、物联网、大数据、移动化、社会化),那么它们是什么关系呢?
- 云计算是指信息化的骨骼,所有的系统都会放在云上,这是大的趋势;
- 然后物联网是连接数据世界和现实世界的一个边界,现实世界会通过各种物联网技术转换到数据世界中;
- 在这个数据世界中,大数据这个大脑会不断的处理这些数据,产生一些有用的信息,这些信息再通过物联网传回现实世界中去,这是一个不断反馈循环的机制;
- 然后移动化是一种策略,便于我们重新分配以前零散的资源,比如人的碎片化的时间或者是很小的钱等等,移动化解决这个问题。基于这个考虑也不难想到,作为一个程序员,coding这件事不适合在移动端去做,因为就需要整片时间,而不是零碎的时间。
- 最后,社会化是灵魂,因为人是一个社会化的动物,它意味着说物以类聚,人以群分,最有价值的部分一定是在那些小群体中产生的,所以将来不管是云还是大数据,一定会分化成好多的领域里面的云,比如说有金融的云,金融的大数据,零售的云以及零售的大数据。
这是我们百分点对大数据以及相关技术的一些理解。基于这样的一个理解,我们才会做出这样一个大数据的方案。
-
什么是故障预测与健康管理(PHM)?
PHM技术作为实现武器装备基于状态的维修(CBM)、自主式保障、感知与响应后勤等新思想、新方案的关键技术,受到美英等军事强国的高度重视和推广应用。PHM系统正在成为新一代的飞机、舰船和车辆等系统设计和使用中的一个重要组成部分。它包括两层含义,一是故障预测,即预先诊断部件或系统完成其功能的状态,确定部件正常工作的时间长度;二是健康管理,即根据诊断/预测信息、可用资源和使用需求对维修活动做出适当决策的能力。
实际上,PHM技术现已广泛应用于机械结构产品中,比如核电站设备、制动装置、发动机、传动装置等。而将PHM技术应用于电子产品则是近年来国外科技研发的重要发展趋势之一。目前国外对电子产品PHM技术的研发主要集中于军用电子产品,重点包括两部分内容:一是产品寿命周期原位监测中的传感系统与传感技术,二是残余寿命预测的故障诊断模型与算法。前者集中于开发无线微型传感器,以取代尺寸较大且需要有线传输数据的传统传感器。后者致力于探索各种不同类型的诊断模型与算法,为军用电子产品故障预测能力提供理论基础。
PHM的实践带来了巨大的经济和社会效益,以美国的JSF项目(F35战斗机)为例,通过PHM技术的应用,设备故障减少了50%,维护人员减少了20%到40%,更重要的是飞机执行任务的架次增加了25%!
PHM实现了两个关键转变:
1.是传统的基于单个传感器的诊断(例如无线局现在根据单个表值及其组合来判断设备运转情况,而没有建立起设备整体的健康情况),转变为基于智能系统的预测(我们现在做到的设备健康度画像就是一种整体的诊断和预测)。
2.是事件驱动的维修(即事后维修)、时间驱动的维修(即定期维修),转变为基于状态的维修(CBM,现在的健康度指标就是一种状态)。
CBM(Condition-based Maintenance)基于状态的维修,直接采信被观测对象功能及性能信息进行故障诊断,是置信度很高的故障诊断、维修方法,得到了成功的应用。CBM方式是通过对设备工作状态和工作环境实时监测,借助人工智能等先进的计算访求,诊断、预测和合理安排设备未来的维修调度时间。CBM方法根据设备的实际运行状态确定设备的最小维护时间,降低设备全寿命周期费用,增加设备的稳定性。CBM的思想即只有在设备需要维护时,才进行必要的维护,大大减少了不必要的检修、诊断耗费。
PHM这种转变带来的价值
1) 提供系统失效的高级告警;
2) 提供视情维护能力;
3) 能够为将来的设计、评估和系统分析获得历史数据及知识;
4) 通过维护周期的延长或及时的维修活动提高系统的可用性;
5) 通过缩减检查成本、故障时间和库存,降低全寿命周期的成本;
6) 减少间歇性故障和无故障发现(no fault founds,NFF)的发生。
上世纪末,随着美军重大项目F-35联合攻击机(JSF)项目的启动,正式把以上的故障预测和维修全面解决方案命名为预测与健康管理(PHM)系统,为PHM技术的诞生带来了契机。PHM是JSF项目实现经济承受性、保障性和生存性目标的一个关键所在。JSF的PHM系统是当前飞机上使用的(BIT)和状态监控的发展,这种发展的主要技术要素是从状态(健康)监控向状态(健康)管理的转变,这种转变引入了故障预测能力,借助这种能力从整个系统(平台)的角度来识别和管理故障的发性,其目的是减少维修人力物力、增加出动架次率以及实现自主式保障。如:当舰载飞机要落地之前,PHM根据预测诊断信息给出维修要求,地面人员根据维修要求、库存情况给出维修建议,飞机返回后立即组织地面进行舰载补给、人员调配等预测性维护。
在数据分析或者说是大数据分析,我们一般会把它分为四个阶段,第一个阶段叫做描述性分析,比如70年代的监控分析,就是描述性分析,告诉我们现状是如何的,第二个阶段叫做诊断性分析,这大概就是90年代的事,它不但能告诉我现状,还能告诉我们是不是有问题,这个叫诊断性分析,第三个阶段叫做预测性分析,不但能告诉我是什么问题,还能告诉我接下来会发展成什么样子,最高的一级叫做建议性分析,它能替人去做一些决策,这是大数据的四个层次。我们现在能看到的就是从监控,即描述性分析逐步发展到预测性分析,当然,随着后续的一些变化,一些业务性的变化,使它具有一些建议性质的分析,这是PHM整个的一个发展过程。
作为一个PHM系统,它应该有哪些组成部分呢?
PHM系统通常由六大部分组成,包括数据采集、信息处理、状态监测、健康评估、故障预测、保障决策。
数据采集是利用各种传感器采集各种设备状态数据、并集成各业务系统数据。数据采集之后进行数据的清洗、标准化、结构化等信息处理。通过接受传感器传回的数据进行状态监测,再通过数据建模分析,进行健康评估与故障预测。最后综合设备各项数据指标进行管理决策支持。
百分点在PHM大数据方面到底做了一些什么样的事儿。
我们期望广电运营商的播放业务的能够更加高效、安全和智能化,但现实是有一系列的挑战阻碍着业务发展:
挑战一:发射机异常诊断完全凭经验。现有的发射机大概有20、30项表值,维修人员很大程度上依赖呀这些标志来判断发射机的工作情况,以及对安全播出业务的影响。由于没有一个“唯一、统一、有指示性”的指标来反映发射机情况,每个维护人员对于设备的状态都可能有自己的解读,假设对每一表值解读分别是:‘没问题’,‘有一点问题’,‘不太好’,‘很糟糕’,那15个表值4种程度,共种10亿种状态组合,显然即使是经验丰富的技术人员也不一定能准确高效的应对各种异常情况。这种经验没有数据化沉淀下来,新人来了都要花一段时间积累经验。如果我们能对这些经验数据化沉淀下来,并转化为简单易读的数字或图的方式,降低个人经验学习时间,提高效率。
挑战二:发射机历史数据没有很好利用。由于缺少大量数据的存储和分析技术,广电运营商历史数据没有保存下来并很好的利用。按照我们的经验,只看故障前1分钟的数据来分析设备状况是很不充分的,真正导致故障原因的波动异常很有可能发生在以往1小时、4小时甚至1天以前。海量历史数据没有有效的分析的话,很难追溯发射机真正故障原因。所以我们需要把发射机的历史数据保存下来,为以后的分析提供打基础。
挑战三:定位异常报警原因困难。维修人员不可能一天坐在发射机前,时时刻刻检查发射机各个表值运行情况是否正常。表值瞬间异常很有可能为正常情况,但周期性瞬间异常就很有可能是真正的异常状态。而这种周期性瞬间是通过人工无法捕捉的。另外,目前设备自动化系统的表值只能反映到设备某一功能出的问题,如高末帘压,对应到功放部分,但没法定位到是由哪个电容或晶体管造成的。
挑战四:无法预测性维护检修。我们了解到广电行业现在主要是基于周期性维护检修,大家肯定有印象以前每周二下午就没有电视机木了,就是在检修。但是检修人员难以判断发射机检修后未来多久后会有故障的可能。目前这种周期性的检修,只是常规检查,检修过后依然会有故障出现,无法做到预测性的维护检修。并且周期性检查一来成本很高,因为不管有没有问题维护人员一定要去检查;二来也设备利用率会降低,因为检查阶段需要停机维护。总体上讲周期性检查属于被动维护,而非主动维护,性价比较低。
挑战五:备品备件库存亟需优化。发射机部件昂贵,维修经费也有限,不能保证所有部件都有充足库存。但随着使用年限的逼近,存在部件更换及库存优化问题。如:电容、电阻、电子管都有一定的使用年限,我们可以根据该电容、电阻、电子管的使用时长再加上维修情况,来进行库存的准备,从而达到优化库存的效果。
百分点PHM方案分为四个模块
一、健康度管理
通过对发射机运行秒数据进行相似度算法,将所有表值数据降维整合为“健康度曲线”这样的1维数据展现,且利用可视化技术将曲线展现。针对一个维度数据的评估,使发射机更容易评估,且新入职维修员也会更容易入手。
二、多级预警
我们将预警等级分为3级,分别为“发射机中度预警“、”发射机重度预警”、“发射机故障预警”。
三、异常定位
每次预警时间将伴有预警起始时间,以及预警周期。点击监控可查询发射机实时运行情况。
当鼠标点击详情或监控后,会显示预警期内表值的详细运行情况,按照设定线和计算线可清晰定位异常参数。
四、历史追溯
所有等级预警都会在后台保存15天方便查询。
整个技术方案是基于百分点的架构,即基于"入"的架构,就是人字形架构,一边是实时,一边是离线,首先是sensor或者业务的数据通过数据采集过来,然后存贮在关系型的数据库中,还有一些是日志数据,大部分数据传上来,都需要Kafka进行分发,然后一边是在Hadoop上做建模,基于R去做,把上传的值转化为健康度的评估指标,然后把模型的值放在存贮里,数据放到Redis或者MongoDB上去,实时的数据会通过Storm进行处理,会从存储设备中取出这些数据,然后评价健康度是什么样的,最后再将数据写回到存储设备里面,接下来的应用是通过数据服务REST API就是从MongoDB中拿到这些数据,然后报到一些可视化的页面或者是一些推送的环节里面,这是技术的架构,里面核心的一件事就是如何进行建模,这里我们采用的一种叫MSET,多状态估计技术,我们对这个进行了一些改变,称作是一种超球模型。原理很简单,这就类似医生在看病时,会有一些经验的值进行判断,比如体温应该是36到37之间,还有身高体重是怎么样的比例,即正常人的一些指标,当任何人看病时,他会通过设备对检测身体的特征或者指数,然后判断你离正常人的指标有多远,如果正常人,肯定和这类指标比较近,如果不正常,通过距离比较,可能的原因是什么,这就是超球模型的样子。这里的整个过程就是数据的采集,然后要做归一化处理,因为这里面所有的指标非常复杂,生成的模型并进行预测。我快速的过一下这个模型给大家看一下,这里面我们举一个线性的矩阵的例子,需要采集一段时间内监控所有的数据,在数据上做一些归一化的处理。如果不做归一化处理就会出现很奇怪的事情,比如电压220伏,但是电流值就比较大,如果不做归一化模型会出现各种各样的问题。在这基础上,我们看这三幅图,在这些得到的训练数据里,我们要训练出来正常的特征是什么样子,归纳出来各个点,当作预测时,我们要把某一点它偏离正常数据最近,若偏离正常值,它偏离多远,这是整个预测阶段所要作的主要事情,最后生成健康度的一个大致曲线,基于这个曲线,我们可以做一些判断,这是我们建模的技术。
3、百分点PHM成功实践
百分点对某广电运营商实践,他的设备正常状态有以下状态,故障时只有一个状态。据我们了解故障数据非常少,如何挑选训练数据也是很困难得一件事情,那我们把刚才的方案和模型运用的这个场景中,取得了重要的成果。
首先,这个界面把健康度的曲线做了一个可视化,根据业务规则设计了几条线, 40%的阈值线和10%的阈值线,在不同的线上有不同的告警信息出来。这是我们有了健康度后我们对设备所做的可视化界面,能看到每台设备他是什么养的状态,绿色表示健康,黄色表示轻度预警,红色表示接下来会出现故障了。在这个界面里能看到所有信息能提取出来,这个设备以前出现过什么故障,现状又是什么,并且我们可以去回顾所有这些设备的历史数据,不用再去翻阅手册,并且每一时刻的实时数据都是可以查看的。当相似度曲线出现一些突变值得时候,设备已经开始出现问题了,这是做的一些预警方面的工作。整个方案部署到到14台设备上,我们跟相关人员也做了一些模拟测试,如运维人员他自己也会造一些问题,比如他会把电压调高,电流调大,我们的系统就真的能够捕捉到接下来要出现的问题了。也就是问题还没出现,我们能报出来接下来要出的问题。
智能化的系统能够弥补人的缺陷。这是两个结果,第一个结果如果报警72小时设备一定会发生故障,这个准确率在97%,这是用来提前让人备元器件或者制定维修计划的,还有一个是实时性的,就是一分钟内要出现故障,这就需要切换一些热备的机器,这个准确率在90%左右,这是两个实际的成效。这就是长期的可以做备件的操作,短期可能是运维人员需要直接去切换整个的设备,这个案例就是实时地对设备进行监控,对它的状态进行评估,基于这些评估进行一些预警,获取得价值就是能及时发现设备的异常状态,时间关系就介绍到这,这是我们在这块的一个实践。
- 本文版权由China HADOOP大数据资讯网与演讲者共同拥有,转载请保留原文来源链接及公众号信息,违者必究。
- China HADOOP Summit 2016 上海站将于7月29日30日在上海市召开,现向业界召集演讲。有兴趣的朋友请联系我们。
征集但不限于下列内容:
- 大数据生态系统 大数据安全;存储;YARN;HDFS命名空间等;
- 大数据与工业4.0 电力、电网、能源、炼钢等;
- 大数据与电子商务 国内互联网主流电商企业应用与架构分享
- 金融大数据 银行、证券、个人征信、企业征信、量化投资与大数据
- 智慧城市与大数据 交通、医疗、安防、税务工商、旅游等
- 计算引擎与实时计算 Spark、Tez、Impala、Flink、Google Mesa、Storm、Fafka等
- 大数据即服务 Azure、AWS、阿里云、Docker/Container、Mesos等
- NewSQL/NoSQL HBase/Druid;MongoDB/CouchDB;VoltDB;SequaioDB;Hana等
- 数据挖掘与图计算 R语言、GraphLab、GraphX、OrientDB等
- 数据仓库与可视化 EBay Kylin、LinkedIn Cubert、QlikView、Tableaue等
- 大数据创业与融投资 分享大数据领域的创业团队和故事