一、 需求分析
上海小松的IT系统对用户的业务生产的支持非常重要,所以IT系统的稳定是用户业务生产稳定的基础。目前的IT环境是在没有冗余和备份机制的基础上运行,存在巨大的风险。前面一段时间曾经出现过一次HP服务器由于电源风扇问题而Down机的情况;最近由于Domino的bug也使得系统出现过几次Domino异常终止的情况。 所以需要建立一套冗余机制,能够实现服务的不中断运行(如果一台服务器出现问题,或者一个应用出现问题,那么可以直接切换到冗余的服务器上);同时建立备份机制(例如:磁带备份)和监控机制(事前预防)。
上海小松目前规划建设4台服务器做双机热备冗余,全部为WINDOWS SERVER,,该四台服务器中的数据需要高速存储到磁盘阵列中,其传输速率不能低于2GB/S,同时每天需将在固定的时间内段将镜像数据再备份到二级存储设备---磁带库上,与此同时要求磁盘阵列中的数据存储裸容量不能低于1TB,并提供相应的高安全级别RAID进行数据保护,对于磁带库设备,其备份的数据容量不能少于1TB,这些数据必须保证至少2个月的保存时间。备份软件必须采用全自动备份和高性能恢复程序。
二、 设计原则
基于以上的需求和我公司对此项目的了解。我们认为系统方案的设计目标是构造一个功能齐全、运行高效、使用灵活、维护方便、易于扩展、投资省、安全可靠的系统解决方案,为了达到这个目标,必须遵守以下几个设计原则。
2.1 高可用性
系统方案的高可用性是信息系统长期有效使用的关键。NEC提供的系统方案大到设备与设备的连接,设备与网络的连接;小到存储设备的接口,内部高速缓存,都考虑到了充分的冗余。
2.2 可扩充性
在发展迅速的信息领域,应用环境、系统的硬件或软件都会不断地加以更新,因此,系统的可扩充性以及前后兼容一致性好坏决定着企业信息系统的发展。本方案的设计,硬件/软件是建立在广泛的可升级基础之上的,NEC提供支持灵活的升级方案。
2.3 经济性及投资保护
性能价格比是我们在本方案中充分考虑的因素。投资保护不仅仅是对设备产品等,更应该是对人和知识产品的保护。
三、 系统方案介绍
3.1 EXPRESSCLUSTER解决方案
针对用户对系统的可靠性和容错能力的要求,建议用户选择NEC EXPRESSCLUSTER的高可用集群解决方案,来实现系统中数据库服务器(MSSQL2000)、Web服务器(Websphere)的服务、邮件Domino7以及业务数据的备份,从而达到系统的高度可靠性和容错能力。
EXPRESSCLUSTER是NEC的一款专业的高可用集群软件。它可以对系统的软硬件状况实时进行监控,在服务器发生异常或宕机时,可以自动将服务切换到备份服务器上运行,实现系统的高可用性。系统结构示意图:
(1) 同时使用网络存储设备和服务器本地磁盘间的镜像
EXPRESSCLUSTER可以支持在一个集群系统中同时使用网络存储设备和磁盘镜像功能。这样既可以使用大容量存储设备来保存全部的履历数据,又可以对本地的常用数据进行实时的镜像复制。
磁盘镜像功能是将用户数据存储于各自服务器的本地磁盘分区上,通过镜像引擎将数据进行实时复制备份。数据存储于不同服务器内的镜像盘上也避免了单点崩溃的可能性,增加了数据的安全性及系统的可用性。
而且,使用网络存储和镜像方式构筑集群系统,两台服务器之间的距离不受外部存储设备连接线的限制,可以将两台服务器放置在不同的位置。
(2) 两台服务器互为备份
Webshpere和MSSQL2000可以分别运行在两台服务器上,并互为备份关系。当任何一个应用发生故障时,再切换到另外一台服务器上运行,这种配置方式可以充分利用服务器资源,避免硬件浪费。并且可以分散两种应用的负荷,提高可用性和系统的整体处理能力。增加ExpressCluster X Application Server Agent 1.0 for Windows,对Websphere 应用进行深层次***,保证僵死状态事故发生,提高预警功能。
Domino同样分别运行在两台服务器上,并互为备份关系。当任何一个应用发生故障时,再切换到另外一台服务器上运行;增加ExpressCluster X Internet Server Agent 1.0 for Windows,对IIS应用进行深层次***,保证僵死状态事故发生,提高预警功能。
(3) 故障探测机制
首先,ExpressClsuter的各种***器模块可以对系统的状况进行全方位的***。***对象包括,服务的进程、操作系统、服务器、本地磁盘、网络存储以及网络连接、磁盘连接、UPS等(如下图所示)。涵盖了系统对外提供服务所依赖的每一个环节。
(4) 应用软件的深层次故障***
一般的集群软件在***应用程序时,应用程序若启动失败或服务异常停止,通常能够检测到并使其发生失效切换。但应用程序在启动后若僵死(Stall)或发生处理错误则无法检测到。
EXPRESSCLUSTER不但能够做到进程级别的***, 通过使用Agent模块***到数据库和Web服务器等应用的僵死状态和处理错误。这样可以更有效地在集群系统中***应用程序。
EXPRESSCLUSTER的Agent的***原理是通过模拟一个客户端,尝试执行数据库或Web访问来间接地实现。当Agent的访问失败或得到异常的结果,则发出通报并进行失效切换等相应处理。
(5) 故障处理机制
根据资源和故障发生位置的特性,对于每一种故障,ExpressCluster可以分别设置不同的处理和自我恢复策略。处理方式包括,单个应用或资源的本地重启动,以组为单位的本地重启动,切换到备份服务器,重启动服务器或关机等。
例如:在软件服务发生故障时,可以选则首先尝试本地恢复,本地恢复失败再切换到本分服务器运行,这样可以减少切换时间,提高恢复速度。而由于硬件卸载失败导致切换失败时,可以选择关闭操作系统来强制切换等。
此外,在发生故障时,EXPRESSCLUSTER还可以进行事件通报,邮件通知等处理。
四、 用户评价:
上海小松IT科的马科长说到:“NEC高可用集群软件EXPRESSCLUSTER在我公司中的应用非常成功,实施以来,整个系统一直稳定运行,给我们工作压力减轻许多,NEC双机软件实时的保证我们的Domina系统、数据库服务的正常工作。