磁盘阵列及MSCS的维护

详细描述本人在使用IBM磁盘阵列及MSCS的日常维护方法,并对可能出现的问题说明了解决方法。

创新互联坚持“要么做到,要么别承诺”的工作理念,服务领域包括:成都网站制作、网站设计、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的双滦网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!

 

一、 磁盘阵列的维护

 

基本知识

1、阵列的四种主要状态:

。Online(在线):Cluster中有控制权的节点的阵列状态。

。Offline(脱机):Cluster中无控制权的节点的阵列状态,或有控制权,但处于脱机状态。

。Critical(临界状态):在Cluster中,处于此状态的阵列不允许进行切换,必须在原来有控制权的机器上对阵列进行恢复,即进行Rebuild或其它恢复操作。

。Blocked(阻塞状态):只出现在RAID0级别中。在Cluster中,处于此状态的阵列不允许进行切换或读写操作,必须在原来有控制权的机器上对阵列进行恢复。

 

2、磁盘的两种主要状态:

。Online(在线):硬盘灯为绿色或指示灯不亮(与阵列柜型号有关)。此时阵列的状态为Online。

。 Defunct(非在线、失效):硬盘灯为红色。此时阵列的状态为Offline、Critical或Blocked。

 

3、每次切换后,磁盘阵列都会进行一次数据的同步,此时硬盘灯出现有规则的闪烁,持续时间大概为2小时左右(与阵列容量有关)。同时仍然可以进行其它操作,但是一定不能断电或进行热插拔操作,否则阵列信息将丢失。

 

4、硬盘的Firmware版本查看:

在ServeRaid Manager的物理磁盘组中,点击要查看硬盘,屏幕上将显示该硬盘的的Firmware版本号。

说明:版本要求为1.09(或S96E)以上。

 

5、阵列卡的Firmware及Bios版本查看:

在ServeRaid Manager中,点击要查看的控制卡,屏幕上将显示该阵列卡的Firmware 及Bios版本号。

说明:Firmware版本应为3.70以上、 Bios版本应为4.0以上。

 

现象观察

      1、查看阵列柜的前面板的状态灯提示

一般阵列柜中硬盘有两个指示灯,一个为状态灯(红),一个为硬盘读写指示灯(绿)。

。若干磁盘的绿灯不规则闪烁表示为对该盘当前有读写操作(此时绿灯较亮),阵列为Online状态;

。全部磁盘的绿灯规则闪烁表示阵列作同步操作(此时绿灯较暗),阵列为Online状态;

。磁盘的绿灯全灭表示当前无操作,阵列处于Online状态;

。单个硬盘亮红灯表示此盘状态为DDD(不可用)或OffLine;

。某个硬盘绿灯及桔黄灯交替规则闪烁表示该盘正在Rebuild;

。两个以上硬盘亮红灯时表示阵列柜已坏,Cluster 必然当机。

 

2、通过ServeRaid Manager管理工具查看

在有控制权的节点启动ServeRaid Manager。

。控制器、逻辑盘处于OK状态;

。构成阵列的物理硬盘处于Online状态(如果存在Hot Spare盘,可看到本机的Hot Spare盘状态为Hot Spare,另一节点的Hot Spare盘状态为Ready);

。如果存在Hot Spare 硬盘,则在Hot Spare 菜单中可以找到该硬盘;

。如果某物理硬盘状态为DDD,说明该盘已不可用,需要修复或替换;

。如果某块物理硬盘状态为Offline,表示该盘为脱机状态(未损坏);

。在RAID 1、RAID 1E、RAID 5及RAID 5E 中如果某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Critical,即临界状态;

。在RAID 0 中,如果某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Blocked,即阻塞状态,此时对硬盘不能进行任何操作,等待恢复完后,手工将Blocked 状态设为UnBlocked状态;

 

说明:无控制权的节点阵列中的磁盘状态为Defunct(Hot Spare盘为正常)。

 

磁盘异常状态处理

要求主机对磁盘阵列拥有控制权。

1、单个磁盘DDD状态,此时禁止Cluster切换(可关闭备机)。

说明:DDD状态并不一定表示硬盘物理故障,根据该盘的使用情况,有如下处理方法:

。该盘作为Array磁盘时,并且该节点存在Hot Spare盘 :当该盘失效时,Hot Spare 盘自动完成接管,阵列自动进入Rebuild状态,同时该盘状态转为Hot Spare。如果没有自动Rebuild,需要人工执行Rebuild 操作,完毕后,将该盘设置为Hot Spare状态。若人工Rebuild操作失败,可拔出此盘,隔一分钟后再插入磁盘柜中,重复上述操作;如果仍然失败,说明该盘可能存在物理故障。

。该盘作为Array磁盘时,节点无Hot Spare 盘;选中该盘,按鼠标右键,执行Rebuild操作,若操作失败,可拔出此盘,隔一分钟后再插入磁盘柜中,重复上述操作;如果仍然失败,说明该盘存在物理故障。

。该盘为Hot Spare 盘:选中该盘,按鼠标右键,执行Delete Hot Spare将此盘从Hot Spare状态删除,再将该盘重新设置为Hot Spare(也可使用Replace and Rebuild进行)。如果操作失败,可拔出此盘,隔一分种后再插入磁盘柜中,重复上述操作;如果仍然失败,说明该盘可能存在物理故障。

 

2、单个磁盘Offline状态

手工设置为Online;如果不成功,先关闭备机(无控制权),再重启主机,然后重新设置为Online;如果还不成功,将盘拔出磁盘柜,隔一分钟后重新插入柜中,再次关闭备机(无控制权),再分别重新启动主机和备机。

 

以下两种情况先关掉B机,防止系统切换

3、两个盘 Offline状态

先将其中一个Online,所另一个作Rebuild操作,完成后重新启动主机。

 

4、一个Offline,一个DDD

      将Offline盘设置为 Online,对DDD盘作Rebuild操作,完成后重新启动主机。

 

5、硬盘状态为Defunct时,可按下列步骤进行恢复

。打开ServeRaid Manager。

。 选中Defunct的硬盘,按右键。

。使用Replace And Rebuild对硬盘数据进行重建。

。按照屏幕提示,需要先将硬盘拔出,然后再插入。

 

磁盘阵列异常处理

1、当阵列处于Critical时,只需在原来有控制权的机器上对故障硬盘进行Rebuild即可。

 

2、当阵列处于Blocked时,作如下操作:

。为了保证对阵列的恢复,先将原来没有控制权的机器关闭。

。重新启动有控制权的机器,此时系统提示:按F4——修正错误;F5 ——接收当前配置。

。按F4修正当前的错误,将Blocked状态修正为Critical状态。

。系统自动对硬盘进行Rebuild。

 

硬盘Rebuild时的进度显示ServeRaid Manager中窗口底部的状态条中

 

二、MSCS的维护:

 

MSCS的维护与阵列的维护密切相关,如果阵列工作状态正常,则MSCS一般情况下也正常,但是如果Cluster 中的某些服务不能启动或损坏,MSCS可能发生工作异常。

以下是日常维护操作说明:

 

1、首先检查RAID的工作状态(通过IBM ServeRaid manager检查);

2、使用Cluster Administators查看每个服务的工作情况,所有资源应为Online;

3、如果某服务或资源处于Offline状态时,先查明原因,然后人工设置为Online;

4、如果磁盘或磁盘阵列工作异常,可按照磁盘阵列的维护进行处理;

注意:此时阵列处于Critical状态,应防止、禁止切换操作(采取关闭备机的办法)。

5、如果异外断电(所有设备全部断电),启动时按下列顺序启动系统:

。先启动阵列柜;

。阵列柜加电后,启动断电前属于控制状态的节点;     

。待完全启动后,再启动另外一个节点。

双机系统中存在主域控制服务器,应先启动主域控制服务器。

6、紧急情况下关机顺序如下:

。首先关闭处于备用状态的节点;

。再关闭处于控制状态的节点;

。最后关闭磁盘阵列。

原则上阵列柜不能掉电,特别是正在对进行阵列的读写操作时。

7、在特殊情况下,Cluster可能不能启动,一般情况下可能该节点对磁盘阵列无控制权,此时在命令行方式下执行ipshahto.exe文件,强行取得控制权。

 

此步骤建议在由技术人员指导下进行。

8、当硬盘正在Rebuild时,不允许切换;正在同步时,尽量不要切换;


本文题目:磁盘阵列及MSCS的维护
本文链接:http://ybzwz.com/article/jjhihi.html