信息系統可靠性影響因素與對策
對于一個信息系統,特別是關鍵業務系統而言,可靠性非常重要。有數據統計顯示,金融信息系統每小時的停機代價是250萬美元,制造業最少也要2.8萬美元。這還僅僅是2000年的統計結果,如今企業對信息系統的依賴程度更高,停機所造成的損失也就更大。
對信息系統可靠性產生影響的因素有很多,有人為因素、過程處理和技術因素。其中,人的因素可以通過培訓、認證來提高管理水平,減少因為經驗缺乏導致的錯誤。對于處理過程中的偶然錯誤,這就需要系統具有足夠的技術能力。
在技術因素方面,導致系統失效的原因也有很多,例如硬件故障,設備驅動、操作系統和應用軟件的故障。其中,隨著硬件制造工藝水平的提升,可靠性大大提高,與之相比,軟件故障的影響因素更為突出一些。那么在這種情況下,提高系統硬件的可靠性還有沒有意義?
答案是顯而易見的,特別對于關鍵業務系統,很多用戶采用集群的方式來提升可靠性。集群的方式是通過雙機或者更多的機器,借助集群軟件來提升系統的可靠性。但其中一臺機器設備發生故障時,由另外一臺設備來接替故障設備的工作。最理想的狀況,是無縫切換,但在實際工作中往往做不到,有各種原因會導致系統切換不成功。此外,有時候也會導致在不該切換時候的誤切換,這都會降低系統的可靠性。
較之集群,容錯具有更高的可靠性級別。容錯系統從整體上可視為一臺機器,由兩套獨立硬件系統構成,受時鐘鎖步系統控制,在相同指令周期內執行同一條指令(參見圖)。
容錯系統特有的ASIC故障檢測系統將對CPU、 內存、 芯片組、磁盤、 I/O 等部件的處理結果進行比對,相同執行下一步,不相同則從新計算。容錯系統不僅可有效應對硬件故障,還可以避免各種不可預知的因素,如電磁干擾、尖峰脈沖等對可靠性的影響,避免潛在的計算錯誤所導致的風險。因此對于關鍵業務應用,應該選擇具有更高可靠性的系統。
至于軟件故障對系統可靠性的影響,唯一的辦法就是升級軟件包,打補丁。但是無論如何,硬件系統的高可靠性基礎,是不可或缺的條件。所謂皮之不存,毛之焉附?