從支付寶故障看服務(wù)器擴容一:事前準(zhǔn)備篇
原創(chuàng)【51CTO獨家特稿】2009年10月29日15:30分很多淘寶網(wǎng)的淘友們突然發(fā)現(xiàn)支付寶不能使用了,官方的解釋是“系統(tǒng)緊急維護(hù)”,但是很多人對這個公告并不買賬,因為按照淘寶的慣例,維護(hù)多在凌晨進(jìn)行,不會選擇交易量瘋狂的下午,更嚴(yán)重的是很多買家付款后系統(tǒng)仍顯示“待付款”,于是很多人都紛紛猜測淘寶網(wǎng)已被黑客光顧?
17:00以后,淘寶網(wǎng)的交易流程陸續(xù)恢復(fù)正常,淘友們賬戶中的money也沒有縮水。對于眾淘友們來說,錢沒少就已經(jīng)皆大歡喜了,而僅僅一個多小時的中斷時間也是無關(guān)痛癢的,而對于我們這些每天管理服務(wù)器的IT人士來說,這個事件給我們一個大大的警示。
淘寶網(wǎng)給我們的最終解釋是:2009年10月29日下午15時30分左右,支付寶方面發(fā)現(xiàn)系統(tǒng)運轉(zhuǎn)緩慢,采取服務(wù)器緊急擴容來應(yīng)對這些流量不足。我們不禁要問流量不足的問題為什么IT部門沒有事先預(yù)判到?為什么要采取緊急擴容?在擴容前以及擴容后我們都需要注意哪些事項?我們不妨說一說。由于這方面所涉及的點比較多,我們把服務(wù)器擴容的注意事項分成三個篇章來講述,首先說說事前準(zhǔn)備篇。
我們知道,不管是暴露在網(wǎng)外的,諸如電子商務(wù)、OA、郵箱等公用服務(wù),還是置身于內(nèi)網(wǎng)的活動目錄、DNS、ERP等專屬服務(wù),它們的存在都是一個機構(gòu)正常運行的保證,任何時候都不能出現(xiàn)中斷的情形。而如果服務(wù)器所營造的平臺不能滿足當(dāng)前的應(yīng)用需求而必須要做出更換或者擴容的時候,我們必須做好充足的準(zhǔn)備工作。
服務(wù)器擴容事前準(zhǔn)備篇A、擴容實施的時間
每一個服務(wù)都有存在的價值,即便是短暫的停歇也會造成重大的損失,所以我們在做服務(wù)器擴容時要選擇合適的時間。最佳的時間段應(yīng)該在凌晨2:00~5:00之間,這個時間段使用的用戶較少,服務(wù)器的短暫維護(hù)不會造成太大的影響。而如果是跨國企業(yè),我們還要考慮到時差的因素,維護(hù)的時間最好安排在周六的凌晨進(jìn)行,這基本上算是公用的休息時段。
服務(wù)器擴容事前準(zhǔn)備篇B、冗余服務(wù)器
如果某一項服務(wù)只有一臺服務(wù)器,那么我們必須考慮到它的冗余問題,在升級、擴容之前,我們必須為其準(zhǔn)備一臺冗余服務(wù)器,以防止擴容失敗造成服務(wù)不可用的情形,因為這個冗余服務(wù)器只是臨時使用,所以為了不增加成本我們可以在其他服務(wù)器上建立一個虛擬化服務(wù)器作為冗余,待擴容平穩(wěn)結(jié)束,未出現(xiàn)任何問題時,我們即可拆除這個虛擬化冗余。
服務(wù)器擴容事前準(zhǔn)備篇C、軟、硬件的綜合考評
一個新的應(yīng)用系統(tǒng)(比如:OA、FMS)誕生往往要經(jīng)過很多版本的測試,呈現(xiàn)給最終用戶手中的必定是最穩(wěn)定的正式版,但是這個新系統(tǒng)是不是完美無暇了呢?它和我們現(xiàn)行系統(tǒng)的兼容性如何?能否平穩(wěn)過渡?這都是需要我們在正式實施前做出正確的評估和相應(yīng)的測試的。
而增加硬件我們則要充分評價其兼容性和動能指標(biāo),對某臺服務(wù)器需要大的改動(比如增加多塊硬盤)則需要詳細(xì)計算它的最大輸出功率是否滿足需求,其散熱是否能達(dá)到相應(yīng)指標(biāo),它采用的是何種RAID技術(shù),同其他硬盤的RAID是否能完美的融合在一起。
服務(wù)器擴容事前準(zhǔn)備篇D、數(shù)據(jù)中心的承壓能力
如果當(dāng)前數(shù)據(jù)中心不能滿足日益增長的信息需求,那么僅僅是對一臺服務(wù)器進(jìn)行擴容改造有時是杯水車薪的,所以我們看到最多的就是多臺服務(wù)器的更換或者是大量增加。
這種部署是IT運維人員最喜歡的,因為搞IT的都迷戀于追新,況且這種部署可以有充分的實施和測試過程,相對比較容易。但是我們不要忽略一個重要問題,那就是大量的增加服務(wù)器破壞了整個數(shù)據(jù)中心的電力、散熱等恒定因素,我們需要重新計算UPS的供電能力,精密空調(diào)系統(tǒng)的恒溫恒濕能力,這也是前期準(zhǔn)備階段不容忽視的。
服務(wù)器擴容事前準(zhǔn)備篇E、通告
隸屬于本網(wǎng)的所有用戶都有信息知情權(quán),在作出服務(wù)器擴容之前我們要通過Web公告或者郵件群發(fā)等形式告知所有用戶,哪個時段做維護(hù),哪些服務(wù)不能使用,并建議用戶做好相關(guān)文件的備份等工作。
OK,注意到這些事項后我們即可進(jìn)去正式的實施階段,我們在下一篇文章將會講述服務(wù)器擴容的具體實施注意事項。
【編輯推薦】