一起自动化程序缺陷引起主机跳闸事件的启示

      近日,某水电站在机组并网后带负荷运行时,因plc程序缺陷发生灭磁开关误分闸引起失磁保护动作,跳开发电机出口断路器导致停机事件,对电网的正常运行造成了影响 。文章重点对监控系统PLC程序缺陷导致机组灭磁开关跳闸的原因进行分析,对该起事件进行反思,各同行引以为戒 。
     2018年8月,某水电站按照电网调度要求,开启2号机组并网运行 。2号机在并网后带5MW负荷运行时,“发电机失磁保护”动作,出口断路器002跳闸 。
     经厂家技术人员分析发现,监控系统PLC程序缺陷是该起事件的根本原因,即机组停机后再次开机时灭磁开关误跳闸的缺陷一直存在(达7年之久) 。因监控系统开、停机程序设计中,“灭磁监视变量(MC_Monitor)”不会自动复位(停机程序设计存在缺陷)的缺陷始终存在,故每次停机完成后,运行人员手动分灭磁开关的临时措施 。在厂家共同排查下,在原基础上加入“ 灭磁开关分闸超时”、“停机结束”、“机端电压<10%Ue”、“停机流程退出”判据,满足任一判据即复位“灭磁监视变量(MC_Monitor)” 。
     从该起技术问题引发的事件中,几个问题值得反思:
     一是在思想和行动上高度重视隐患排查治理 。
     在日常安全生产工作,隐患排查治理已成为新常态 。我们开展的各种安全大检查、班组自查自纠,似乎更关注“明显”的隐患,如设备的声音异常、设备温度高、设备的压力异常等,而对“隐形”的故障似乎无人问津,甚至部分隐患已多次在提示、警告我们 。该起事件中,“两台机组停机后再次开机时灭磁开关异常跳闸”、“运行人员每次手动分灭磁开关”等隐患提示存在达7年之久,专业维护人员多次联系厂家共同查找原因,均未查到问题根源 。本该自动实现的功能却须手动辅助才能完成,难道这不是隐患?生产管理人员对此风险认识不足,长期存在的缺陷未引起重视,尽管曾多次处理,却浅尝辄止、听之任之,始终未能有效排查清楚,这是不是一种隐患?而安全监督人员,是否能及时发现此安全隐患并督促整改,是否“有据可查”?我们知道,在事故隐患的主要有物的危险状态、人的不安全行为和管理上的缺陷三种表现 。而物的危险状态是指生产过程或生产区域内的物质条件(如材料、工具、设备、设施、成品、半成品)处于危险状态;管理上的缺陷是指在开展各种生产活动中所必须的各种组织、协调等行动存在缺陷 。很明显,隐患是一种存在,而未能有效整改,是该起事件最本质的原因,幸好未扩大,否则“隐患排查流于形式”的帽子将无情的扣上,现场管理人员、主管生产人员、安全监督人员都难辞其咎 。
     二是须切实加强安全和技术教育培训 。目前大家似乎都热衷于搞高大上的培训,专题会议、搞形式、喊口号似乎出了新常态,而真正的技术问题(甚至是技术方面的隐患)却很少深,使得很多技术故障始终未能找到问题根源,一直存在,等待巧合的机会爆发 。“重形式,重实效,重管理,轻专业”的思想和行为愈发突出,似乎“管理可以出效益,管理是是正道” 。技术人员待遇、前途渺茫,很多搞技术的人感觉毫无出路和成就感,在夹缝中生存,甚至出现干的越多,考核越重的怪相,使得“不懂反而光荣,懂技术反而成为负担” 。这种专业人员严重匮乏、专业力量严重薄弱的情况,导致大量技术工作过于依托厂家,厂家一旦无招,则束手无策,问题迟迟得不到解决,隐患越来多,影响越来越重,一旦爆发,很多人都难辞其咎 。
     三是须高度重视设备异动管理 。对于自动化设备管控、设备异动管理,都有非常严格的管理要求,比如自动化程序备份管理,需按照一整套严谨的程序进行备份、试验、校核等规定动作,否则将出现管理混乱、程序紊乱、难查根源的严重问题 。对于设备异动,应重点夯实基础管理,建立技术台账,关于该设备的一切相关的技术信息都应认真记录,内容应包括设备参数、检修记录、缺陷处理记录、设备更新记录、设备异动记录等 。
     关于自动化设备(程序)管理,各位同仁有何见解,期待您的建议和留言 。

    推荐阅读