数据中心故障处理

数据中心故障处理(1)分析故障现象:一般来说由于构成组件比较复杂,故障也呈现出不同的表现方式

因此想要对于故障进行分析,就要先了解故障的现象

例如,应用方面出现了支付系统支付不了,网页难以打开等问题,那么就要逐一检查相关的故障点,有哪几个故障是上述表现,如,线路故障,端口故障等,就要更换线路、端口等设备

因此,需要针对数据中心网络的几种常见的故障进行收集与整理,根据现象,进行检索、查找

(2)测试并确认故障范围,进行故障点定位

所有的应用业务是在这些物理硬件正常运行的基础上开展的,其中某些硬件出现问题就会导致故障

根据故障的表现,需要针对各个部分进行筛选检查,例如,对于服务器进行测试,检查网络设备等

针对问题表现,进行逐一排除,最终敲定故障点所在位置

(3)如果以上硬件故障都已经排除,那么就是计算机系统的故障,这一故障需要建立故障模型进行诊断,根据PMC模型进行定义

通过分层测试的方法,查找问题单元,即正常单元测试正常单元、正常单元测试故障单元、故障单元测试故障单元、故障单元测试正常单元等四种

其中后三种的检测结果都是故障,因此就可以通过分层测量的方式,建立有限个单元,通过矩阵以及萤火虫算法重点FAFD算法对于其他单元进行诊断,最终确定故障的系统是哪个或者哪几个单元的

当然也可以通过镜像、流量统计、抓包等其他手段确定故障所在的设备范围,进而缩小范围,集中处理某一个或者几个设备

(4)收集重要的数据信息

在进行故障处理时,通过收集设备的日志、诊断、操作记录等信息资料,将这些数据资料进行汇总,条件允许的情况下,建立故障数据库,对于常见问题可以做到“出现即处理”,对于没有出现过的故障,可以继续收集进数据库

总之,必要的信息收集,有利于日后更好的查找故障原因,确保数据中心网络健康、平稳运行

 

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关