淘寶崩,淘寶崩,淘寶崩完12306崩......
原創(chuàng)【51CTO.com原創(chuàng)稿件】3月20日下午,阿里系多款產(chǎn)品短時(shí)無(wú)法正常運(yùn)作,大概從下午 15 點(diǎn) 46 左右開(kāi)始,包括淘寶、天貓、淘寶直播、閑魚(yú)等 App 均出現(xiàn)了“重新加載”字樣,直到 15 點(diǎn) 56 分左右,頁(yè)面逐步恢復(fù)正常。
接著,有網(wǎng)友反映鐵路訂票系統(tǒng) 12306 網(wǎng)站出現(xiàn)崩潰。記者從鐵路客服中心了解到,21 日確收到旅客反映手機(jī) App 無(wú)法查詢余票信息,目前已上報(bào)后臺(tái)部門核查,正在逐步恢復(fù)中,建議旅客過(guò)半小時(shí)后再試。
前天下午#淘寶崩了#也上了熱搜,要知道如今阿里系產(chǎn)品對(duì)多少人來(lái)說(shuō)都是不可或缺的,這一崩潰,你說(shuō)廣大網(wǎng)友能不激動(dòng)么!
于是有網(wǎng)友聯(lián)想到前日杭州上空的一聲巨響,難道是這一聲把阿里震崩了,對(duì)此浙江省地震局表示,這個(gè)鍋咱不背!
也有不想還花唄的網(wǎng)友:
直至 20 日下午 16:23 分,微博@淘寶、@飛豬 發(fā)布微博表示:修好了。知情人士稱,此次問(wèn)題,影響阿里系 10 多個(gè)產(chǎn)品線,不過(guò)具體原因并沒(méi)有說(shuō)明!

整體來(lái)說(shuō),此次崩潰,阿里修復(fù)效率非常快,總的時(shí)間加起來(lái)不到半小時(shí)!
有網(wǎng)友戲 3 月為“宕機(jī)月”。今天,一起來(lái)談?wù)勫礄C(jī)背后的云安全問(wèn)題。
經(jīng)過(guò)十余年的發(fā)展,中國(guó)的云計(jì)算市場(chǎng)已經(jīng)初具規(guī)模,各種新技術(shù)、新應(yīng)用、新場(chǎng)景、新架構(gòu)成為公有云/私有云平臺(tái)市場(chǎng)能夠保持快速、持續(xù)增長(zhǎng)的助推器。
目前越來(lái)越多的企業(yè)將其業(yè)務(wù)系統(tǒng)、數(shù)據(jù)部署在云上,云服務(wù)器一旦宕機(jī),企業(yè)業(yè)務(wù)必然會(huì)受波及。因而安全被各企業(yè)視為頭等要?jiǎng)?wù)。
理論上不存在“永不宕機(jī)”的云
事實(shí)上,多家云服務(wù)提供商也都出現(xiàn)過(guò)宕機(jī)事件。僅 2018 年一年,全球主流云計(jì)算廠商曾發(fā)生數(shù)十起宕機(jī)事故。雖然宕機(jī)的原因不盡相同,但宕機(jī)卻時(shí)有發(fā)生。
據(jù)悉,云服務(wù)產(chǎn)生故障的原因一般分為兩類:
- 因?yàn)檎`操作導(dǎo)致的問(wèn)題(其實(shí)用不用云服務(wù)都有這個(gè)問(wèn)題)。
- 云平臺(tái)故障導(dǎo)致的問(wèn)題。
中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏也表示,目前發(fā)生的宕機(jī)事故約 80% 是因?yàn)榧夹g(shù)人員操作不規(guī)范或誤操作導(dǎo)致的,相比于“誤操作”,云平臺(tái)故障的技術(shù)問(wèn)題僅占 20%。
云服務(wù)提供商的云平臺(tái)可提供服務(wù)器快照、數(shù)據(jù)庫(kù)備份和日志備份等諸多功能,這些功能為企業(yè)帶來(lái)了便利,遠(yuǎn)比企業(yè)自己構(gòu)建類似的服務(wù)簡(jiǎn)單好用,但是涉及到權(quán)限問(wèn)題就值得思考了。
使用云平臺(tái)上的賬戶權(quán)限管理時(shí),嚴(yán)格地避免無(wú)意或者惡意的“誤操作”很重要,因?yàn)槿绻品?wù)管理權(quán)限每個(gè)人都有,那么很容易出現(xiàn)“誤操作”的問(wèn)題,所以要嚴(yán)格控制賬戶管理的權(quán)限。
無(wú)論是傳統(tǒng)的環(huán)境,還是云環(huán)境,都不能做到絕對(duì)的“持續(xù)可用”。何寶宏對(duì)此表示,理論上任何技術(shù)或者服務(wù)出現(xiàn)中斷都是不可避免的,僅是概率大小的問(wèn)題。
雖然所有的云服務(wù)都不是絕對(duì)安全的,沒(méi)有辦法 100% 保證正常的系統(tǒng)。但是大部分情況下,云環(huán)境的可用性和可靠性都比傳統(tǒng)環(huán)境高,這主要是因?yàn)樵破脚_(tái)的運(yùn)維更加專業(yè)。可見(jiàn),盡管云會(huì)發(fā)生故障,但云仍然是值得信任的。
服務(wù)可靠性、業(yè)務(wù)連續(xù)性需不斷加強(qiáng)
未來(lái)云服務(wù)或?qū)⑾袼娒阂粯映蔀榛A(chǔ)設(shè)施。停電 1 分鐘,對(duì)于一般家庭而言,也許只意味著少看一會(huì)兒電視、少吹一會(huì)兒空調(diào),但對(duì)于企業(yè)而言,或許意味著一條生產(chǎn)線的癱瘓、整個(gè)生產(chǎn)流程的推倒重來(lái)。
同理,云服務(wù)器宕機(jī) 1 分鐘,對(duì)于云服務(wù)提供商來(lái)說(shuō)是一次運(yùn)維故障,但對(duì)企業(yè)而言,或許意味著客戶的流失甚至破產(chǎn),特別是不可逆的故障不是云服務(wù)提供商賠償就能挽回的。
對(duì)于頻繁的宕機(jī)事件,作為企業(yè)我們能做的只有為自己數(shù)據(jù)做好備份,畢竟天有不測(cè)風(fēng)云,有“備”才能無(wú)患。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】