某市审计署计算机机房(以下简称机房)UPS电池发生击穿事故,冒起浓烟。经过约两个小时的扑救,现场浓烟得到有效控制,没有造成人员伤亡。事故导致该市政府门户网站、邮件系统、互联网出口、政务服务中心、住房公积金中心等重要系统一度无法使用。据悉,这起事故原因初步认定为供电不稳定,导致恢复供电后产生的瞬时高压造成UPS电池短路,引发火灾。
上述事件的发生,除有关人员难辞其咎外,也与机房的特殊性密切相关。金审工程的机房等基础设施采取的是分布式模式设计,各特派办、地方审计机关均建有独立的机房,各自承担维护的责任,因此对机房的特殊性应有清醒认识,并引起足够重视。
一、机房是一个比较复杂也相对脆弱的“生态”系统
机房里的设备和系统五花八门,大致可分为计算机网络设备和机房设施两部分。计算机网络设备包括服务器、交换机、路由器、防火墙、加密机等;机房设施包括UPS供配电子系统、机房空调子系统、防雷接地子系统、设备监控子系统、机柜微环境子系统和安全消防子系统等。因此可以说,这些相互影响、相互依存的设备和设施就构成了一个比较复杂的“生态”系统。
由于设备众多、影响因素复杂,各设备间既相互联系又相互影响,一旦某个设备状态或外界环境发生变化,极易引起其他设备发生故障或导致连锁反应,造成系统崩溃。同时,系统也无法自动恢复正常。据中国计算机用户协会机房设备应用分会调查显示,在不同行业的机房IT设备停机、系统瘫痪等事故中,45%至50%都是由机房设施引起的。因此机房又是一个相对脆弱的“生态”系统。
二、机房是信息化的核心场所
随着信息化程度日益加深,整个社会、各行业、各单位的业务流程都越来越依赖信息系统,服务器上存储着数量巨大的核心信息,而其运行的也都是重要业务,而作为信息化载体的计算机、服务器等,其“栖身之所”正是机房。如金审工程《审计管理系统》等各大应用系统都运行在机房的服务器上。由于机房中的设备由大量的微电子设备、各种集成电路、电子元器件等组成,这些设备使用了大量易受环境条件影响的电子元件、机械构件及材料,如果环境条件不能满足这些设备对环境的使用要求,就会降低计算机的可靠性,加速元件及材料的老化,缩短机器的使用寿命,甚至丢失重要的数据和出现误操作等。
由于机房环境条件比较特殊,机房安全包括的内容很多,确保机房的安全无疑是整个计算机信息系统安全的前提。如果机房存在这样那样的不安全因素,机房安全得不到有力的保证,则整个信息系统的安全也就不可能实现。
三、机房火灾很可能危及楼宇及人员安全
机房事故的主要类型有停电、火灾、触电等。无论哪种事故发生,如果不能得到及时有效的控制,都很可能会对楼宇安全造成损害,对人员人身造成伤害。计算机网络设备的运转一刻都离不开电源,机房电源子系统里经常出现问题的部件有电池组、配电系统和UPS。首先,电池组着火引起火灾的事故时有发生,电池组还会对人员造成伤害,曾经发生过电池组事故导致操作人员双目失明的严重事件。其次,配电系统对导线和空气开关的要求都很高,如果设计或运行维护不合理,很容易引起火灾或导致断电宕机。再次,从前面例子可以看出,UPS有可能引起火灾,也可能引起断电。此外,如果空调断电之后,整个机房的温度会迅速上升,很短时间就会有服务器发出警报并自动关闭。如果空调运行不合理,机架上的设备多了以后,空调产生的冷风很难均匀送到每个机架,而一旦某些机架得不到冷风就会产生局部热点,从而为事故埋下隐患。
机房中的设备往往每天24小时、全年365天不间断运转,因此对机房事故决不能掉以轻心,只有重视机房设备安全,才能保障整个系统的安全。
综上所述,机房是十分重要的场所,各特派办机房中的计算机网络设备承载着审计专网、审计内网的《审计管理系统》,承担着与署机关公文通信、机关日常办公、与《现场审计实施系统》交互等重要使命,因此必须高度重视并采取有力措施保障其设备设施安全运行,以确保审计工作正常有序开展。
第一、定期检查机房气溶胶自动灭火装置,开展专项消防检查,及时堵塞安全漏洞,加强消防安全、杜绝火灾隐患.
第二、应提高对机房可靠性、可用性、安全性等方面的认识,既要重视信息系统安全,又要重视机房的运行维护管理,重视对计算机硬件、软件及网络设备的维护。要树立大局意识和忧患意识,对机房设施安全的重要性给予足够的重视。
第三、应重点加强管理制度的执行。管理制度包括预防维护流程和紧急情况处理预案两个方面。要制定相应的管理制度,包括机房管理岗位制度、机房操作规程等,以明确岗位职责。为应对机房中可能会发生的紧急情况,如火灾、断电、数据丢失、设备失灵等,应按各种紧急情况分列处置措施,还要对预案进行演练。
第四、应不断提高机房管理人员的技术水平。机房设施非常复杂,涉及很多专业和系统,维护人员只有通过不断的后续学习和培训,提高技术水平,才能避免很多人为错误甚至事故的发生。
第五、应加强供配电、照明等电源子系统的监测。同时应重点对温度、湿度、灰尘、有害气体等进行评估和监测。还要加强静电防护、干扰源分析及保护、雷击防护、电磁干扰、振动控制,防火、防水等工作。
第六、应加强对进入机房人员的管理。工作人员行为、素质等因素均可能对机房安全造成影响,因此,除制度约束外,门禁和视频监视等物理安全策略均可有效提高机房安全水平。
第七、应定期对机房设施进行安全评估。最好每年聘请第三方机构进行安全评估,专业评估机构拥有专家力量,能够比较安全地对所有的设备进行操作,不会因为误操作引起机房火灾。
总之,我们一定要对各类机房事故查明原因,总结经验、排除隐患、吸取教训,只有这样,才能确保机房安全,充分发挥计算机和网络的作用,不断提高审计信息化水平。