服務器宕機造成英國航空史上最嚴重的大混亂
英國國家航空服務公司(NATS)在去年12月份發生一起嚴重事故。由于其兩條系統航班服務器通道均發生故障,導致數百架航班無法起飛。
據一份內部報告顯示,此次混亂共造成120架航班被取消,500架航班被耽擱了45分鐘,總共影響約10000萬名旅客。
據內部人員透露,此次事故的發生是一臺運行航班數據處理系統的IBM S/390主機宕機造成的。內部報告顯示,在14點44分,一臺為航空指揮控制人員提供數據的計算機發生故障;14點45分,所有離開倫敦機場的航班被叫停;15點整,整個歐洲所有計劃經過英國領空的航班被叫停。在當天的20點10分,系統才恢復正常。
所有倫敦區域的操控人員都有著一個唯一的身份標識--原子函數(Atomic Function),其確保航班服務器系統給每個工作站提供正確的信息和通信保障。但系統中某個潛在的漏洞導致原子函數的***值被錯誤的設置成151,而正確的數字是193.
報告顯示,航班服務器系統認為它有著比原子函數的***值更大的上限,而這種情況是不允許出現的。當出現這種情況時,航班服務器系統就會自動關閉,以防止提供錯誤的數據給工作站。當這種情況傳送到第二套運行觀察模式的航班服務器系統時,觸發了同樣的錯誤。
NATS否認對其忽略IT系統投入的指控,該公司于2001年成為與英國政府公私合營伙伴關系的企業。
該起事故的最終報告將會在2015年2月14日前發布。