微軟Windows Azure計(jì)算云發(fā)生全局故障
微軟Windows Azure云日前在全球范圍內(nèi)發(fā)生部分計(jì)算停運(yùn)事故,這讓我們不禁要問(wèn):微軟到底是如何對(duì)其服務(wù)進(jìn)行有效劃分的?
根據(jù)微軟公司的服務(wù)信息面板顯示,問(wèn)題出現(xiàn)在早上2:35(UTC),而且一直延續(xù)至當(dāng)天晚上10:20(UTC)。
“在云服務(wù)上以手動(dòng)操作執(zhí)行交換部署可能產(chǎn)生錯(cuò)誤,這將導(dǎo)致一部分服務(wù)管理功能受限,”微軟解釋稱(chēng)。
Azure的每一個(gè)區(qū)域——即使地理跨度相當(dāng)遙遠(yuǎn)且歸屬于完全不同的數(shù)據(jù)中心群——都受到了影響,其中包括:美國(guó)西部、歐洲西部、亞洲東南部、美國(guó)中南部、歐洲北部、美國(guó)中北部、亞洲東部以及美國(guó)東部。
“我們正在采取一切必要措施,希望盡快緩解這一事件給托管服務(wù)造成的影響。進(jìn)一步信息更新將在兩小時(shí)之內(nèi)公布,幫助大家了解***情況。我們對(duì)于此次事件給客戶(hù)們帶來(lái)的任何不便深表歉意,”微軟公司晚上10點(diǎn)(UTC)這樣寫(xiě)道。
交換部署操作允許開(kāi)發(fā)人員在分段及生產(chǎn)環(huán)境之間進(jìn)行虛擬IP地址交換。交換部署是一種異步操作,需要與Azure管理服務(wù)進(jìn)行交互。盡管并不屬于這套IaaS云的主要組件,但停運(yùn)事故仍然會(huì)給那些重量級(jí)用戶(hù)造成不良影響。此外,涉及范圍如此之廣的全局停運(yùn)也很可能損害用戶(hù)對(duì)微軟規(guī)?;?wù)管理能力的信心。

信息面板提示……對(duì)于云體系來(lái)說(shuō),全局故障絕對(duì)是可能發(fā)生的最糟糕的事態(tài)。
除了計(jì)算服務(wù)的一個(gè)子組件發(fā)生全局故障,Azure云的網(wǎng)站功能同樣在世界范圍內(nèi)遭遇問(wèn)題。由于交換部署服務(wù)失效,“FTP數(shù)據(jù)訪問(wèn)”也于當(dāng)天下午7點(diǎn)(UTC)出現(xiàn)連帶故障。
云計(jì)算所帶來(lái)的***擔(dān)憂(yōu)就是問(wèn)題會(huì)對(duì)所有區(qū)域同時(shí)造成影響。此次事故也標(biāo)志著微軟在同一年中第二次遭遇并發(fā)式全局故障。
上一次讓微軟出糗的是某失效安全證書(shū),它直接使全球范圍內(nèi)的Windows Azure存儲(chǔ)服務(wù)陷入癱瘓。這一次的問(wèn)題則由另一個(gè)更無(wú)足輕重的小小組件所引發(fā)。事實(shí)上,面對(duì)頻繁的全局失效,我們不禁要對(duì)微軟可能已經(jīng)落實(shí)到位的區(qū)域劃分政策提出強(qiáng)烈控訴。