數據中心運維的組織架構設計漫談
數據中心是一個擁有諸多系統的復雜機構,要讓數據中心高效安全地運轉起來,需要有一支技術實力雄厚的運維隊伍。雖然,這幾年總有人提出要建設無人值守的數據中心,建設自動化運維的系統,以降低人力成本,盡力去提升個人運維的工作效率,在實際應用中,仍不能完全行得通。沒有人參與運維和管理的數據中心將是一盤散沙,根本形不成戰斗力。降低人力成本是數據中心長期堅持的目標,但眼前還是需要大量的技術人員,在數據中心里形成人機交互的融合體。而且,在數據中心建設TIA-942標準中也明確提出人員的配置情況,不同級別的數據中心要求匹配的人員數量不一,等級越高對人員數量和技能水平要求越高。
如圖1所示,TIA-942將數據中心分為四級,其中T1級別最低,T4級別最高,級別越高匹配的人員能力要求越高,同時值守時間也最長,T4往往要求全年數據中心無業務中斷,對運維的要求非常高,必須安排專業技術的人員現場24小時值守,以便在出現問題時,及時排除,或者能立即切換到備份系統上,讓業務不受影響。
圖1:不同等級數據中心人員配置要求
在人員的組織架構設計上,可以將數據中心分為三大塊,每個部分再細分,建設完善的運維系統,一般是這樣,如圖2所示:
圖2:數據中心運維組織架構圖
根據圖2所列的數據中心運維的組織架構,顯然對于一個大型數據中心13~15人是最基本的配置,如果考慮到7*24小時輪換值班(個別崗位),人員配置至少要25人。像保安和保潔人員,偌大的數據中心只配置一兩個人肯定不夠,大型數據中心的面積都要上萬平方米,這個大建筑面積的保潔工作,至少也要十來個人才行。還有IT系統部分,網絡和服務器、存儲這些都是相關性比較少的專業技術,一個人不可能都掌握,就需要這些方面的人才都要儲備一些。還有很多的數據中心是建在全國各地的,如果在全國各地的數據中心都建設圖2這一套運維組織,人力成本太高,所以很多的數據中心也是將IT系統部的所有專業技術人員集中到總部辦公,對各地的數據中心實施遠程管理。在數據中心機房現場,只需要留有少量的駐場人員,這些人員只需要會拔插網線,會重啟和安裝設備就可以,平日的監控也主要由這些駐場人員來完成,一旦發現問題及時通知IT系統部的人員上來定位和分析。
基礎設施部和行政部與數據中心機房休戚相關,在各地的數據中心都需要建立一套。其實,現在絕大部分的數據中心都是租用運營商或者專業的數據中心服務商提供的機房,像供電、電氣、空調、監控、安保和保潔都是由運營商來完成,數據中心只要向運營商提供租金即可,這樣可以節省很大一部分人力費用,數據中心運維只需要有IT系統部就可以了。如果像騰訊、阿里這樣的互聯網巨頭,單獨建設了自己的數據中心,就需要有基礎設施部和行政管理部,當然如果圖省事,也可以將這兩個部分運維的工作都外包出去,由專業的服務商來完成,這樣也要比自己維護兩個部門要節省得多。
除了設計組織架構,還要制定詳細的部門工作內容,各個工作崗位的職位要求,細化到具體工作上,部門主管可以根據每個人的工作表現,進行考評和漲薪。要建立起一套科學合理的包括選、用、培養、考核及解聘的人員管理生命周期,通過合理的組織架構設計與人員分工,最大限度地發揮個人的主觀能動性,為組織目標貢獻力量等,這些管理要靠各種流程來約束,大家按照流程辦事和工作。流程是數據中心運維架構質量的保證,流程存在的目的就是保證運維架構可以按質、按量地運行。
人員是數據中心運維的基礎,也是數據中心的運維核心。一個好的數據中心運維組織架構,少不了合適的技術和管理人員。人是數據中心運行好壞的最為關鍵因素,有句成語說得好:“成也蕭何,敗也蕭何”,要知道數據中心中發生的故障百分之八十是人為故障,而人又是處理這些故障的關鍵部分,需要大量的人力去保證數據中心穩定運行。所以,人與數據中心的關系很微妙,既不能讓數據中心完全依賴于人,又不能讓數據中心完全脫離人的管理,要在兩者之間達到平衡。人干預過多,容易引起人為故障,人干預過少,數據中心系統就容易跑偏,也許有設備都燒掉了,人們都還不知道,這樣的數據中心運維就是失敗的。