Gmail事件啟示:特大規模云不見得是好事
幾乎就在整整一年前,谷歌Google Apps的高級產品經理Rajen Sheth還在竭力宣傳谷歌那一套全新的災難恢復基礎架構有多么地出色、具有的規模經濟效應又會帶來怎樣的優勢。Sheth在谷歌企業官方博客上吹噓,谷歌在采取同步復制技術,將數據復制到多個數據中心;這么做對于普通企業來說成本過高,但是對于谷歌來說成本承受得了,這歸功于這家公司有龐大的規模。所以,這就是為什么用戶選擇谷歌比自己托管電子郵件系統來得更安全。
瞧瞧后來發生了什么?谷歌存儲更新軟件的一個缺陷居然毀掉了存放在多個處理中心的所有那些同步數據文件,于是這家公司被迫回去拿出磁帶,為4萬左右個用戶找到數據。這項工作聽起來難度不小。要不然停運事件已經過去了四天,谷歌怎么直到今天才恢復了大多數客戶的數據。還真要感謝那個積滿灰塵的傳統介質:磁帶。
這就引出了一個問題:云的規模經濟效應果真是好事嗎?你有150萬個用戶時,你能夠保護他們所有人,并恢復他們的數據嗎?哪怕僅僅是一次增量備份,也會帶來海量數據。
客觀地講,谷歌在與客戶溝通方面一直做得相當到位,恢復過程似乎也進展順利。換句話說,谷歌基本上做到了大家所預期的。IT研究分析公司Cutter Consortium的高級顧問Claude Baudoin說:“大家不應該控訴整個云計算模式,因為事件發生的概率比較有限。”實際上,據谷歌聲稱,Gmail在2010年的正常運行時間幾乎接近四個9:達到99.984%。
問題在于,以Gmail這么龐大的規模進行運作時,小小的一次事件都會影響絕對數量非常多的用戶。云計算(其實是公用計算改頭換面而來的)讓各大云計算提供商處在了與美國最大的有線電視服務商康卡斯特公司(Comcast)或離你家最近的那家煤氣電力公司同樣的境地。搜一下電視頻道,要是沒有什么好看的節目,最多只會讓人有點失望;但是如果你的寬帶連接中斷,或者對方告知你的電子郵件帳戶不存在,那完全是另一碼事了。
谷歌是一個大受歡迎的品牌,而這樣那樣的停運事件也在所難免。確保服務正常運行能持續多長時間呢?同樣這個問題值得每一家想在云計算領域大有作為的公司好好思考。
【編輯推薦】