一
雙機容錯方案的比較
在諸多備份手段中
雙機容錯系統能夠提供在線數據備份
在線容錯
在線修復
適時數據恢復等功能
能夠保證關鍵業務的不間斷運行
在 Windows NT Server的雙機熱備份軟件的選擇中
目前比較常見的有以下幾種
CA公司的SurviveIT (即ARCServeIT Replication For Windows NT的升級版)
NCR公司的LifeKeep
Octopus For Windows NT
Standby Server For Windows NT和NT自帶的Cluster技術
以上產品分析比較如下
系統名稱 優 點 缺 點
SurviveIT
對打開文件的備份最為完善和安全
基本上能夠做到實時備份
可以備份整個操作系統
也可以備份單個文件或文件夾
對網絡負荷影響較小
操作簡單
誤警率低
不需要磁盤陣列等額外的投資
重新啟動服務器後
軟件會重做數據復制
時間較長
LifeKeep
系統可靠性高
不會對操作系統產生影響
誤警率最低
系統對Windows NT操作系統的支持較弱
不能備份Windows NT的操作系統
只能備份硬盤卷
Octopus
系統對Windows NT操作系統的支持強
對打開文件備份較完善和安全
切換速度快
網絡負荷大
穩定性差
誤警率高
操作復雜
Standby
對網絡負荷影響較小
服務器的CPU利用率高
Cluster
與NT系統緊密集成
對備份機的要求較高
要求使用磁盤陣列
二
SurviveIT容錯軟件的介紹
SurviveIT是Micrsoft Windows NT平台的服務器高可用性解決方案
它針對服務器和應用的故障提供第一級的保護
使用字節級的復制技術
實時地將選中的驅動器
卷和/或目錄復制到一台從服務器上
在關鍵服務器發生故障
或者失去網絡連接時
SurviveIT能在最短的延遲內
立即將用戶轉移到指定的從服務器
使關鍵業務在主服務器故障恢復過程中仍可以繼續進行
SurviveIT最大限度地提供了數據的可用性
從而大大減少了因服務器宕機引起的不便
SurviveIT的工作原理
一旦定義了某項任務
SurviveIT 會將您需要保護的服務器(主服務器)和用於備用的服務器(從服務器)之間選中的驅動器
卷和/或目錄同步
此後的文件改動將在改動發生的同時進行復制
如果主服務器出現故障
不論由於何種原因
SurviveIT將把客戶訪問轉移到從服務器的文件系統上
當故障排除後
SurviveIT 用這些數據來恢復主服務器
重新同步兩台服務器
繼續執行對主服務器的保護
SurviveIT的優點
SurviveIT 不是復制磁盤扇區
而是文件和文件夾
這使得同步和復制更加迅速和靈活
使 SurviveIT 得以提供基於文件的事務完整性
在線同步對用戶是透明的
在建立服務器同步時
通常的業務可以不受干擾地繼續進行
提供對共享的透明的接管
不需要磁盤陣列等專用硬件設備
SurviveIT還能夠極為迅速地同步服務器
允許從服務器(在接管操作之前或之後)處理其他工作
允許用單個服務器接管多台主服務器
並且為裝有SurviveIT的整個網絡提供直觀的單點管理
SurviveIT全面支持CA Unicenter TNG
CA Jasmine
Lotus Notes
Microsoft Exchange
Microsoft SQL Server
Microsoft Proxy Server
Microsoft IIS
Netscape Enterprise
Oracle
Sybase等應用程序
在主
從服務器接管/恢復時
這些應用也能夠被自動接管/恢復
從而保證了終端用戶對關鍵數據的不間斷存取
三
SurviveIT雙機容錯方案的設計
網絡服務器的現狀如下
台NF
服務器(NT+Oracle
i)是MIS系統的心髒
台NF
服務器(NT+ARCserverIT)是的數據備份中心
為了滿足客戶端業務對 Oracle數據庫的高可用性需求
用NF
作為SurviveIT的從服務器來保護 NF
(作為SurviveIT的主服務器)
下圖說明了使用從服務器NF
保護單一主服務器 NF
的配置(實際上
一台從服務器可以保護多台主服務器)
要建立這樣的安裝結構
系統管理員應在主
從服務器上分別安裝SurviveIT(根據輸入的 licence number來確定 primary server/secondary server 的身份)
並在網絡中任意一台工作站上(最好就在主/從服務器上)安裝 SurviveIT控制台組件
雖然要求主從服務器的處理器
內存和硬盤容量應大致相當
但無需完全一致
顯然
從服務器除在發生失效後接管主服務器的工作之外
還必須具有足夠的能力運行其自身工作
本方案中
使用一根交叉雙絞線進行備份數據的傳輸
不會影響到系統的網絡速度
同時
用一根串口線(null modem cable)做為檢測線
檢查主用服務器是否正常工作
在主用服務器出現故障時
備用服務器在完成其自身任務的同時
可以全面接管主用服務器的工作
在主用服務器故障排除後
可以方便的恢復主服務器的正常工作
四
SurviveIT的安裝
根據主
從服務器各自獨立的功能需求
分別安裝NF
(NT+Oracle
i)和NF
(NT+ARCserverIT)服務器
為了保護主服務器的Oracle(是被保護的關鍵應用)
從服務器NF
必須有足夠的硬盤空間
同時
用與主服務器相同的安裝路徑和相關設置在從服務器上安裝Oracle
i
以便從服務器具有與主服務器Oracle一致的oracle services
registry和文件目錄結構
在從服務器上把所有的oracle services的startup type都改為manual
在主服務器上修改listener
ora文件
把其中主機名(如NF
)改為相應的IP地址(如
)
主
從服務器上要正確設置WINS名字解析
在主
從服務器上分別安裝 SurviveIT 的所有組件
包括
Server component
Console component
Alert component
Unicenter TNG Framework component
注意
輸入登錄服務器的用戶名和口令必須具有本地服務器管理員權限
如果該服務器位於NT 域
必須輸入同時具有登錄本地服務器和NT域的管理員權限的帳號
接下來
還需要安裝從CA網站下載的SurviveIT SP
升級補丁
安裝步驟同上
五
SurviveIT的設置與使用
創建復制任務
完成安裝後
系統管理員便可設置SurviveIT
使用復制任務向導(SurviveIT控制台程序的一部分)創建復制任務
復制任務將定義主從服務器
失效條件
各種復制設置和一項或多項工作(要復制到從服務器的主服務器文件系統的一部分)
打開SurviveIT Console主窗口
點擊
新復制任務
按鈕
根據提示
選擇Primary server(被保護服務器)
即DA
單擊下一步
選擇Secondary server
即NF
選擇被保護服務器保護級別
Full Protection
當 SurviveIT 檢測到主服務器失效時
從服務器將接管失效主服務器的地位
Data Protection Only
如果SurviveIT檢測到通信故障或主服務器的磁盤失效
僅僅停止數據復制
主服務器將不被接管
選擇Full Protection
選擇主從服務器之間網絡連接速度
選擇包含需要被復制文件的文件夾
選擇C:\Oracle(注意
被保護的文件夾在主服務器上必須設置共享
有些系統文件和動態鏈接庫文件(如c:\oracle\ora
\jdbc\lib
c:\oracle\ora
\dbs和所有的dll文件)由於在主
從服務器上都存在
並且是自安裝後始終不變的文件
所以沒有必要加入復制任務
選擇上一步所選擇的C:\Oracle的共享名
當任務設置一覽表界面出現後
還需要通過高級選項設置當網絡通信失敗後執行
完全保護
因此單擊
高級
按鈕
在任務編輯樹窗口
展開Failure Detection圖標
單擊Communication Failure圖標
在Communication Failure窗口
需要指明SurviveIT如何確定主服務器失效
比較好的辦法是讓主從服務器去ping 一系列附加的設備或計算機
這裡選擇
Obtain Failure Confirmation via alternate route
選項
在
Confirmation
選框中選擇
Use list of Machines/Devices to confirm server failure
在
Machines/Devices
選框單擊增加按鈕顯示 confirmation Machines/Devices 對話框
輸入缺省網關的IP地址即
並確定
對於Oracle數據庫的應用保護
還需要設置被復制文件的目的位置
為主服務器提供備用的IP地址
添加使主服務器停止Oracle服務和從服務器開始Oracle服務的script
設置被復制文件的目的位置
因為Netfinity
所安裝的Oralce數據庫程序文件在C:\oracle
用戶數據文件存放在D:\Oralce和D:\data
因此還需要增加
個workload
對Workload
選擇
Destination
→
Select Alternate Destination
→
C
\
Transactional Integrity
→
對Workload
選擇
Destination
→
Select Alternate Destination
→
D
\
Transactional Integrity
→
對Workload
選擇
Destination
→
Select Alternate Destination
→
D
\
Transactional Integrity
→
為主服務器提供備用的IP地址
當從服務器接管主服務器的應用後
也同時接管主服務器的網絡信息(如主機名
IP地址等)
而此時主服務器使用備用的IP地址和加_fail後綴的主機名
直到主服務器被恢復
目的是為了避免IP地址從突
在復制任務編輯樹窗口
選擇
Failover Action
→
Primary
DA
→
Server Identification
在此窗口中
Server Name
使用缺省的DA
_FAIL
同時在
Server IP Address
窗口中雙擊主服務器IP地址以允許IP接管
輸入主服務器備用的IP地址
添加使主服務器停止Oracle服務和從服務器開始Oracle服務的script
共有
處(pre_failover_primary
post_failover_pri
From:http://tw.wingwit.com/Article/os/xtgl/201311/9356.html