阿里云引入“混沌工程”提升穩定性 專有云遭“隨機破壞”后依然正常運行
2018杭州·云棲大會上,阿里云上演了一出好戲——12600種異常被現場觀眾隨機挑選,化身一只“功夫猴子”在專有云數據中心里橫沖直撞,進行“破壞”:模擬硬盤掉電、網絡抖動、服務器宕機等,但系統和應用依然穩定運行。
“IT從業者***的未解之謎就是,為什么一塊磁盤被寫滿加上網絡堵塞,會引起關鍵應用服務中斷的連鎖反應?”阿里云專有云兼企業應用總經理馬勁打趣說,“過去我們不具備全系統演練的條件,今天我們引入‘混沌工程’理念,在準生產環境中做高頻異常注入來打磨專有云的可靠性。”
自去年云棲大會上現場演示拔服務器電源后,馬勁就有了個“破壞之王”的名號。但“破壞”是為了讓系統更穩定,過去一年,他和工程師們開啟了一項“混沌工程”計劃,構造超過12600種生產環境下可能出的異常組合,每一種都能對系統造成一定程度的破壞,諸如服務器宕機、計算資源耗盡、程序異常退出、誤刪除及網絡抖動、IO hang等復雜問題,通過對這類問題構建“專有云免疫系統”,幫助客戶提前排除80%的故障隱患。
或許是現場觀眾隨機挑選的異常“破壞力”不足,馬勁一狠心,演示了一個極端環境下的超級異常——核心ECS集群出現局部網絡異常,同時另一臺ECS計算資源飽和。“這類情況極易引發系統雪崩,一般情況下客戶的服務就掛掉了,而且恢復時間很長,”馬勁解釋道,演示現場的專有云快速隔離及彈性伸縮服務發揮了作用,應用僅持續了幾秒的抖動便恢復了正常。
“混沌工程”通常應用在工程領域,指在可控范圍內實踐一些可引發系統失效的實驗。馬勁表示,阿里云的“混沌工程”是在仿真的生產環境中進行可控的建設性破壞,對不符合預期的系統反饋不斷優化,從而持續打磨,為客戶提供穩定環境。
自2016年發布專有云解決方案以來,阿里云已助力數百家政府、金融、企業客戶完成了數字化轉型,包括海關總署、浙江政務服務網、中國聯通、中信等大型政企客戶,專有云提供超過60款云產品和服務,支持10-10000臺單集群規模部署,可將計算延伸到更多邊緣場景。今天的專有云正在開拓海外市場,并與英特爾成立產業聯盟服務全球客戶。