云計算:出了問題該找誰
考慮一下上個星期可能丟失了重要數據的100萬T-Mobile Sidekick用戶。考慮一下數十名首席信息官焦急地等待Workday公司在9月24日恢復其軟件服務的事情。云計算已經創建了承擔責任的新時代。我們必須要求技術廠商比以前更努力地工作以證明他們是可以信賴的。
在這兩個實例中,客戶完全依賴于他們的廠商管理自己的數據。在這兩個實例中,問題可以歸咎于技術故障。云計算的增長并沒有停止(我們不準備突然離開互聯網和高速網絡并且把更多的數據存儲在家里的PC和企業服務器中),因此,現在是每一個人(包括消費者和全球最大企業的首席信息官)開始提出問題,要求他們的廠商承擔責任的時候了。
我們首先看一下Sidekick的問題。為Sidekick提供數據服務的微軟下屬分公司Danger在自己的數據中心遇到了服務器故障。在上周末,T-Mobile寫信給用戶說,存儲在用戶手機中的聯絡人、日歷記錄、任務清單或者照片等個人信息將不會再出現用戶的Sidekick手機中,因為微軟/Danger的服務器故障肯定會造成用戶信息的丟失。
Sidekick用戶的數據存儲在微軟/Danger的服務器中,這是不是意味著用戶的數據在其它任何地方沒有副本?鏡像服務器目前在數據中心是非常通用的做法,通過服務器虛擬化技術可以更容易和更便宜地使用鏡像服務器。微軟/Danger沒有這方面的投資嗎?截止到本周一上午,這兩家公司還沒有發布這個技術故障的細節。
誰應該為這個事故負責?有趣的是T-Mobile在其發布的消息中有五次提到微軟/Danger,好像是隱隱約約地指出它不是唯一的承擔責任的方面。人們猜測大多數用戶不僅不知道他們的數據正在有微軟的一個下屬單位管理,而且甚至從來都沒有考慮過他們的數據在什么地方進行管理。你打開自己的智能手機,打電話或者查看電子郵件。隨著消費者更加適應在自己家庭PC上運行谷歌應用程序、在自己的智能手機上托管的電子郵件、讓移動服務提供商管理其最重要的數據,消費者需要像首席信息官一樣考慮一些問題。
特別是要考慮這個廠商如何證明它已經進行了技術投資,能夠在數據中心一旦發生故障的時候恢復用戶丟失的任何數據。
同時,軟件服務新興企業Workday有大約100個客戶使用其基于云計算的人力資源、工資單和財務應用程序。Workday的服務在9月24日中斷了15個小時。在這個案例中,部署的備份系統發揮了作用。它檢測到了一個破壞的存儲節點,但是它后來卻讓自己離線了。內置冗余功能的一個系統的冗余備份引起了這個故障,這是具有諷刺意味的。Workday共同首席執行官Aneel Bhusri在博客中稱,這種錯誤不應該引起存儲陣列離線,但是,它確實引起了這個故障。
據說Workday對于這個事情處理得非常好。但是,業內人士Mary Hayes Weier在10月9日發表的博客對這次中斷事件的評論吸引了一些感興趣的讀者對誰應該承擔責任發表了自己的評論。
Weier指出,IT部門內部也發生故障。下面是一個讀者對這個想法的看法:他說,如果一項直接由公司IT人員提供技術支持的服務發生故障,這些技術人員會遭到首席執行官和首席財務官的批評。如果負責技術支持的是廠商,首席信息官遭到什么批評取決于誰首先選擇的這個軟件服務。
另一位讀者說,這個問題取決于客戶和廠商之間的服務級協議。他說,如果這個合同是要保證每年的某些開機時間,即使出現這次中斷,他們仍然可以保持在大約99%的開機時間以上。在“正常的”美國時間發生的中斷是更容易注意到的。對于工資單等企業核心應用程序來說,我詢問Workday為什么沒有熱容錯功能,或者熱容錯功能是否也出現了故障。我認為15個小時的中斷確實是不可接受的,特別是如果這個服務打亂薪金周期的話。
另一位讀者說,應該由許多方承擔責任。他說,像Workday那樣的云計算提供商需要執行首席執行官要求自己內部的首席信息官機構通過SLR/SLA(服務級協議)執行的同樣的嚴格標準。但是,那個首席信息官機構仍需要承當由于云計算中斷造成的混亂和困惑的責任,因為那個機構現在和將來都要負責使用技術理順信息豐富的后臺處理。備份策略仍是那個首席信息官機構的責任。
這是有趣觀點。誰為T-Mobile不能恢復用戶的數據負責?T-Mobile還是微軟?還是微軟的Danger分公司?數據中心的工作人員?還是選擇Sidekick服務而沒有確保擁有一個數據保護擔保的人?
這是云計算的一個全新的領域。每一個人都需要提出這些正確的問題。
【編輯推薦】