關于QingCloud故障全過程及IDC防雷詳解
因廣東1區(GD1)所在IDC遭遇雷暴天氣引發電力故障,6月6日下午,QingCloud廣東1區全部硬件設備意外關機重啟,造成QingCloud官網及控制臺短時無法訪問、部署于GD1的用戶業務暫時不可用。設備重啟后2小時31分GD1業務恢復,系統數據和用戶的業務數據未出現任何丟失。
關于2015年6月6日青云QingCloud廣東1區(GD1)機房電力故障的說明
因廣東1區(GD1)所在IDC遭遇雷暴天氣引發電力故障,昨天下午QingCloud廣東1區全部硬件設備意外關機重啟,造成QingCloud官網及控制臺短時無法訪問、部署于GD1的用戶業務暫時不可用,對此我們向受影響的用戶表示深深的歉意。現將事故完整過程報告如下:
13:48,我們收到GD1硬件及網絡告警,并發現官網及控制臺無法訪問;工程師馬上進行系統狀態檢查,發現GD1所有硬件設備出現重啟;隨即我們與GD1所在的IDC運營商溝通詢問機房情況,同時排查其他可能導致設備重啟的原因,并著手恢復管理服務(KS);其間,我們收到大量用戶反映GD1業務中斷;
14:08,操作切換DNS以恢復官網及控制臺;
14:23,我們從IDC運營商處獲知由于機房所在地區出現雷暴天氣,機房因雷擊引起UPS異常,機柜瞬時斷電再加電,從而導致了青云的全部物理設備異常關機與重啟;
14:38,GD1的管理服務恢復,Bots系統恢復,開始恢復用戶主機;用戶可以訪問GD1資源;DNS完全生效,官網及控制臺訪問恢復;
15:15,內網DNS Server恢復;系統持續檢查環境和幫助用戶恢復業務;
16:19,GD1業務完全恢復,進一步檢查后,于16:30分發布恢復公告。
本次嚴重故障從設備重啟到用戶業務恢復共耗時2小時31分鐘,系統數據和用戶的業務數據未出現任何丟失。
故障發生后,我們同IDC運營商“睿江科技”就事故原因和技術細節進行了持續溝通,并責成睿江科技出具真實、嚴謹的故障報告,力求全面了解機房電力系統和防雷系統發生故障的真實原因,以便在未來規避類似事件的再次發生。
截止目前,我們已經獲取睿江科技提供的《關于20150606XX機房故障說明-青云》報告一份(附后),其中就雷擊引起的電力故障進行了初步說明。通過報告,我們可以了解到的信息如下:
電力系統:直擊雷導致電力系統出現瞬時浪涌,UPS啟動自我保護(報告中提到的“UPS瞬時波動”),從而釋放電流導致瞬間斷電。
防雷系統:機房配備了強電、弱電、UPS及列頭柜四級防雷,雷擊主要是直擊雷和感應雷兩種,本次發生的是直擊雷,現有防雷設施很難防護,從而導致雷電直接影響到電力系統,導致UPS斷電保護。
但我們對其中的細節披露和專業解釋仍存在以下疑問:
- 目前建筑防雷系統已相當成熟,可以防感應雷、直擊雷和側擊雷。專業的IT基礎設施中的四級防雷系統更應該是如此,本次事故中機房的防雷系統為何未能成功防護直擊雷?
- 專業的IT設施防雷系統同民用防雷系統相比防護標準更加嚴格,本次事故的發生究竟是因為防雷系統失效還是因為防雷標準達不到專業IT設施標準?
- 防雷系統中包含浪涌保護器,在正常情況下,防雷系統和浪涌保護器會釋放掉因雷擊產生的瞬時脈沖,從而保證UPS不會產生瞬斷。那么昨天的事故中是否存在浪涌保護器失效,未能釋放掉因雷擊產生的瞬時脈沖,進而導致UPS的斷電保護?
就上述疑問,我們正在同睿江科技進行持續溝通以獲得真實可信的故障原因分析,也會向用戶完整、透明地披露相關信息。
針對本次惡劣天氣導致的事故,我們通過重新審視了故障發生和排除的全過程,認為我們的技術能力和服務能力還有以下些可以進一步改進的地方:
故障信息和故障排除進展的通告要更加及時。在昨天的事故中,我們首先將精力更多地投入到故障定位和排除上,在14:20才給出第一個故障通告,導致很多用戶因缺乏信息產生焦慮。我們充分認識到及時、透明的信息通告的重要性,因此需要檢討在本次故障通告方面做的不夠及時。為此我們制定了未來緊急情況下保障信息通知更加及時、準確的方案。我們會在第一時間通過網站、控制臺及“青云QingCloud服務健康狀態監控”網站(http://status.qingcloud.com)發布和更新系統異常及故障排除進展的通告,也會更及時地通過短信和郵件等形式向受影響的用戶推送相關信息,以保證用戶能更及時和準確地了解服務狀態。我們非常理解在出現故障時用戶面臨著巨大的業務端壓力,因此由衷地感謝用戶們在了解故障信息后對我們給予的理解和支持;
在任何故障情況下,保障官網及控制臺正常訪問。目前我們的官網及控制臺是通過DNS切換的方式確保在所在區出現網絡不可達或系統故障的情況下盡快恢復訪問。未來我們會制定更快速有效的辦法進一步確保官網及控制臺的正常訪問;
在出現全部設備重啟等極端故障情況下,更快地恢復管理服務和業務系統。本次在設備重啟后,我們是通過Bots系統和人工操作結合的方式恢復了GD1的管理服務和用戶業務,未來我們會編寫更加智能的軟件腳本,保障在極端情況下,業務系統能夠更快速地恢復,將可能造成的損失降到更低;
提高IDC服務保障水平。我們會同目前公有云四個區所在機房分別就電力、暖通、網絡等各個專業系統的基礎設施水平、運營管理流程規范等方面進行更加嚴格和全面的檢查,并同IDC運營商一同定期進行災難演練,最大程度避免基礎設施故障的發生;同時進一步加強同IDC運營商之間的信息溝通效率,確保第一時間了解任何異常情況;
容災保護能力提升。將實現關鍵業務的容災能力作為長期努力的目標,通過連接各個區的環網的建設和運營等手段實現更好的容災能力。
綜上,我們會全面審核故障處理流程,以應對機房斷電等最極端的事故為標準進一步提升QingCloud系統的可用性,讓信息傳遞更加及時和透明,通過自動化手段提高切換和業務恢復速度,讓曾經發生的故障成為我們不斷進步的和提高服務能力的源泉。
青云QingCloud
附 《關于20150606XX機房故障說明-青云》
下面為講講被雷劈了咋辦 詳解數據中心防雷問題
最近各地氣候異常,隨著地震、水災、干旱、地陷、雷擊等災難事件的頻發,各種預警及防范措施也在相繼出臺。每年的4~10月份是雷電活動頻繁期,數據中心內的設備眾多,更是不能掉以輕心。
夏季的數據中心除了要承受酷暑的考驗之外,還要抵擋頻繁的雷電沖擊,每逢這個時候,網絡設備遭受雷擊的事件便一浪接一浪,輕則造成個別網絡設備受損,重則導致整個局域網一下子就癱瘓了。
很多數據中心的管理者認為日常的雷擊電壓不能擊壞設備,但是我們需要知道的是即使雷擊所造成的感應電壓不足于一次擊壞網絡設備,但經過長年累月的過壓沖擊,也會引起網絡設備零件的老化,讓網絡設備使用壽命急劇下降,而舊設備就更加容易遭受破壞,嚴重地影響網絡的性能穩定。介于對數據中心帶來的這些災難結果,今天我們就數據中心的防雷技術進行詳細的分析及探討。
#p#
遭雷劈的原因
- 地形復雜,丘陵地帶容易形成對流性天氣抬升;
- 氣候特點屬于潮濕,導致雷雨容易吸收空氣,直接對流放電;
- 高層建筑越來越多。同時,雷電增多和全球變暖兩者有密不可分的關系。
雷電入侵數據中心的途徑:
一、直擊雷是雷電直接擊在建筑物上,產生電效應、熱效應和機械力而導致建筑物損壞。建筑物受到直接雷擊后,強大的雷擊電流沿著接地引下線,經接地體入地后地電位會瞬間升高,產生高電位,引起地電位反擊,損壞設備或造成人員傷亡。
二、雷電感應是雷電放電時,在附近導體上產生靜電感應和電磁感應,它能使金屬部件之間產生火花。雷電感應可以來自對地雷擊,也可以來自云間放電,其中對地雷擊由于距雷擊點較近,產生的感應浪涌電壓較大,作用半徑也大,一般500米范圍的電子信息設備均是其破壞對象;云中放電的感應浪涌電壓雖然較小,但發生概率較高。靜電感應是由于雷云先導的作用,使附近導體上感應出與先導通道符號相反的電荷,雷云主放電時,先導通道中的電荷迅速中和,在導體上的感應電荷得到釋放,如不就近泄入地中就會產生很高的電位。電磁感應是由于電流迅速變化在其周圍空間產生瞬變的強電磁場,使附近的導體產生很高的電動勢。
三、雷電波的入侵是由于雷電對架空線路或金屬管道的作用,雷電波可能沿著這些管線侵入室內,危及人身安全、損壞設備。根據雷電電磁脈沖防護理論和實踐經驗證明,電子信息設備損壞的主要原因是雷電感應浪涌電壓造成的。它可以通過各種引線把感應浪涌電壓波引入電子信息設備內部,破壞其芯片和接口。
數據中心非常注重的就是供電的持續性,因此防雷工作就不能忽視,性能比較優秀的網絡設備本身就自帶有防雷保護功能,在電源進來的線路上,就有用來吸收高壓突波的線路設計。雖然產品帶有防雷保護的功能,但是就雷電產生的感應電壓有幾千伏特或者上萬伏特甚至更高,無論哪個品牌的路由器,單單路由器本身自帶的防雷功能只可能解決一部分雷電所造成的危害,想進一步減少雷電引起的危害就要配備相應的防雷設備。
防雷保護措施
- 應裝設獨立避雷針或架空避雷線,是被保護的建筑物及風帽,放散管等突出屋面的物體均處于接閃器的保護范圍內。
- 排放爆炸危險氣體,蒸汽或粉塵的放散管,呼吸閥和排風管等的管口外的以下空間應處于接閃器的保護范圍內。
- 獨立避雷針的桿塔,架空避雷線的端部和架空避雷網的各支柱處,應至少設一根引下線。對用金屬制成或有焊接,綁扎連接鋼筋的桿塔,支柱,以利用其作為下引線。
- 獨立避雷針,架空避雷線應用獨立的接地裝置,每一引下線的沖擊接地電阻不宜大于10Ω。在土壤電阻率高的地區,可適當增大沖擊接地電阻。
- 當樹木高于建筑物且不在接閃器保護范圍之內時,樹木與建筑物之間的凈距不應小于5cm。
防雷產品分析
一、接閃器
避雷針是最早的接閃器,也是目前世界上公認的最成熟的防直擊雷裝置。避雷帶、避雷網、避雷線是避雷針的變形,其接閃原理是一致的。對避雷針的接閃原理的認識是有一個發展過程的,現在的滾球法理論比較全面地解釋了接閃器吸引雷電的各種現象,被國內外標準所采納。
消雷器消雷器是國內近年來有非常大影響的防雷產品。它是希望改變接閃器的材料和形狀來產生電流中和雷云中的電荷,讓雷云在消雷器的保護范圍內無法建立起接閃所需的場強,以達到消雷的目的。由于消雷器所聲稱的效果完全滿足了人們所希望的防雷效果,因此一段時間內消雷器風靡國內市場。
特殊避雷針還有一些避雷針承認自己接閃雷電,但其保護范圍特別大,而且不會因為加裝了避雷針而增大雷擊概率。這一類產品在市場上的份額不大,沒多少人去深究其技術原理的可行性。但在標準中規定任何接閃器都只能按滾球法校核保護范圍。
二、引下線
一些廠家不在接閃器上作文章,卻在引下線上采取措施,他們認為接閃器接閃時大量的雷電流通過引下線入地,會在周圍的導體中產生感應雷,因此推出有屏蔽作用的引下線。必須指出:感應雷主要是由雷云的靜電感應引起的,只屏蔽引下線作用并不大,而是要加強所有導線的屏蔽效果,才能削弱感應雷。
其實,在國標《建筑物防雷設計規范》(GB50057-94)中,對金屬引下線的規定就已采取了降低引下線電磁干擾的措施,如多根引下線的分流作用,均勻對稱的布置在建筑物四周可相互抵消內部電磁場,利用建筑物的鋼筋框架這個很好的屏蔽籠(法拉第籠)接閃引下雷電流等。因此,普通金屬引下線的方法在技術經濟上都是可行的。
三、低壓電源避雷器
通信站80%的雷擊事故是由雷電波侵入電源線造成。因此,低壓交流避雷器發展非常迅速,而以MOV材料為主的避雷器在市場上占有統治地位。
保護電路MOV避雷器的失效有短路和開路兩種形式,強大的雷電流可能將避雷器擊壞,形成開路故障,這時避雷器模塊的外形往往會被破壞。避雷器也可能因時間長材料老化而動作電壓下降,當動作電壓下降到低于線路工作電壓的水平時,避雷器通過交流電流增加,避雷器發熱,最終會破壞MOV器件的非線性特性,導致避雷器部分短路燒毀。電源線路故障造成的工作電壓升高也可能產生類似情況。避雷器的開路故障不影響電源供電,要檢查動作電壓才能發現,因此避雷器需定期檢查。
避雷器的殘壓只是避雷器的技術指標,真正加在設備上的過電壓還要在殘壓的基礎上加上避雷器與電源線、地線連接的兩段導線電感產生的附加電壓,因此正確的安裝避雷器也是降低設備過電壓的重要措施。
四、通信線路避雷器
通信線路避雷器的技術要求較高,因為除了滿足防雷技術要求外,還須保證傳輸指標符合要求。加上與通信線路相連的設備耐壓很低,對防雷器件的殘壓要求嚴格,因此在選擇防雷器件時較困難。
理想的通信線路防雷器件應是電容小、殘壓低、通流大、響應快。最簡單的電路是在高頻芯線上并聯一個小磁芯電感,就可以構成高通濾波的避雷器。對于點頻通信天線也可采用四分之一波長的短路線構成帶通濾波器,防雷效果更好,但這兩種方法都會將天饋線上傳送的直流短路,其應用范圍有限。
五、接地裝置
接地是防雷的基礎,標準規定的接地方法是采用金屬型材鋪設水平或垂直地極,在腐蝕強烈的地區可以采用鍍鋅和加大金屬型材的截面積的方法抗腐,也可以采用非金屬導體做地極,如石墨地極和硅酸鹽水泥地極。更合理的方法是利用現代建筑的基礎鋼筋做地極,有事半功倍之效。
由于過去對防雷認識的局限性,片面強調降低接地電阻的重要性,導致一些廠家推出各種接地產品,聲稱能降低地電阻。如降阻劑、高分子地極、非金屬地極等。
接地電阻主要受土壤電阻率和地極與土壤接觸電阻有關,在構成地網時與形狀和地極數量也有關系,降阻劑和各種接地極無非是改善地極與土壤的接觸電阻或接觸面積。但土壤電阻率起決定作用,其它的都較易改變,如果土壤電阻率太高就只有工程浩大的換土或改良土壤的方法才能有效,其它方法都難以湊效。
#p#
選用防雷產品的注意事項
一、設計是否有利于用戶并且容易安裝
理想的產品應該是一個小型、緊湊并且能夠安裝在現有的空間內,同時易于安裝。
二、一次能夠處理的最大電流
最大電流(即峰流)是指一個電涌防護器的處理最大電流的能力。Bellcore實驗室為了保護它高度計算機化的實驗中心,進行了廣泛的調研,確定了電涌防護器處理最大電流的能力和所需的技術參數,一個20千安的電涌防護器即可滿足要求,起到防電涌、保護設備的作用。由此可見,在任何建筑物內的分支線供電箱處安裝一個80千安的電涌防護器,便足以解決任何可能出現的電涌問題。對多雷擊區的貴重電氣設備,應在建筑物進口的交流配電箱處安裝一個較大的防護器,型號從160千安到400千安。
三、吸收能量的能力
電涌防護器吸收能量的能力以焦耳(joule)來衡量,焦耳值越高,電涌防護器的使用壽命越長。
四、鉗制電壓的能力
也就是將過電壓鉗制到電器設備所能承受的安全范圍之內的能力。計算機被設計在一定電壓范圍內使用,如果超出了這個范圍就會導致計算機的損壞。因此電涌防護器必須把過電壓鉗制到安全水平,1998年6月1日開始實施的GA173-1998標準規定用于220/380伏電力系統的計算機防雷保安器(電涌防護器)的鉗制電壓應小于或等于2000伏。
五、符合國際和國家標準
電涌防護器應符合國際標準,包括UL1449、ANSI/IEEE、NEMA和IEC。在我國同樣有相應的標準,公安部公共信息網絡安全監察局要求:所有用于保護計算機的防雷保安器(本文中稱為電涌防護器),都必須根據GA173-1998的標準通過檢測并獲得銷售許可證后,方可銷售。
六、產品的可靠性及客戶單
了解客戶單以及廠家從事產品生產的歷史有助于了解廠家的信譽和其產品的可靠性。
七、質量保證
保質期限的長短體現了制造商對其產品是否能不出問題、能長久的保護設備的自信心。一旦產品出現問題,客戶是否能得到快速免費的服務,也是用戶應考慮的因素之一。
時至盛夏,暴雨、雷電天氣較多,由于數據中心通信和供電電纜多從室外引入數據中心,易遭受雷電的侵襲,數據中心建筑的防雷設計尤其重要,而在通常的站區建筑設計中往往忽視這一點,數據中心的建筑防雷除應有效地保護建筑自身的安全之外,也應為設備的防雷及工作接地打下良好的基礎,只有建立多層次的計算機防雷系統,才能確保計算機信息系統的安全運行,最大限度地防御和減輕雷電災害對計算機信息系統造成的危害和損失。