從超大規模云服務提供商處學習效率
企業數據中心團隊可以從超大型云服務提供商那里學習到相應的重要的經驗教訓。與此同時,企業還應重新思考其冗余策略,并考慮采用諸如像SDN這樣的技術來幫助提高效率。
現如今,在數據中心領域,超大規模云服務提供商所帶來的效率和自動化程度的提高也已經開始逐漸轉為向傳統的數據中心普及了。
從***的冷卻技術到自動化配置的一切都是為了提高普通企業數據中心的效率,并幫助降低成本。
Vantage數據中心的***運營官,亞馬遜網絡服務(AWS)基礎設施運營前任副總裁Chris Yetman表示:“您企業正在獲得起草效應,就像您在參加一場賽跑一樣。跑得快的在前面領跑,落在后面的每個競爭者也都在這樣的氛圍下奮起直追。”
同理,那些落后、因仍在采用舊的運維方式而陷入困境的數據中心IT***們可以從超大規模云服務提供商那里學習經驗,并吸取教訓。數據中心設施咨詢機構Uptime Institute的IT優化和戰略副總裁Todd Traver表示,今天的許多企業組織機構都在努力地做出關鍵決策。
他說:“***的益處來自于領導層占據了強硬立場的企業組織機構,并已制定了相應的機制,以追蹤利用和目標。”
反思冗余策略
直到大約四年前,大多數企業都還在依賴于2N基礎架構,這是一種冗余策略,其中數據中心每款基礎設施組件的數量是數據中心基本運營所需組件數量的兩倍。例如,如果一家公司需要10臺服務器進行正常運行,那么一個2N架構將需要20臺服務器。現在,由于應用程序的多樣性,以及對物理基礎設施的依賴性較小,因此混合架構得到了廣泛的認可。
更多的企業組織則更傾向于采用N + 1冗余架構,這種方法使公司只保留比正常運行所需只多一個的備用基礎架構組件。
一家位于美國舊金山的托管服務提供商Digital Realty Trust公司的全球業務高級副總裁丹尼·萊恩(Danny Lane)表示,在過去幾年中,客戶已經減少了對2N冗余架構的依賴。
Lane表示說,虛擬化技術和云架構固有的應用彈性已經幫助Digital Realty公司的客戶們將其硬件占地面積減少了約20%。
盡管如此,根據IDC最近的一項調查顯示,只有9%的IT***相信他們的數據中心得到了優化,這項調研是IDC受一家設在美國明尼蘇達州伊登普雷利的數據中心設計和管理提供商Datalink公司的委托進行的。毫無疑問,如果拿同樣的問題來采訪諸如AWS、Microsoft或Google等超大規模云服務提供商,則又會得到完全不同的答案。
Datalink的虛擬化和云計算實踐總監Kent Christensen表示:“這告訴我們,一般的普通企業現在并不覺得他們是在像AWS云一樣運行的。 “他們的確正在演變,但是仍然覺得發展速度還不夠快。”
一個重要的起點可以從重新評估高可用性(HA)和可靠性、可用性和可維護性(RAS)功能開始著手。戴爾EMC超大規模基礎設施部門(extreme scale infrastructure unit)總監Jyeh Gan表示,企業需要擺脫冗余和彈性必須建立在每一塊硬件中以防止故障的想法。相反,企業組織需要從硬件抽象軟件,以便其可以在一切之上運行,然后采用設計用于能夠克服硬件故障的彈性應用程序。他說,這樣可以沒有HA和RAS的功能。
Gan表示說:“大多數企業遠還未達到這一程度,但他們也不會在這一程度水平持續多年。” “即使是超大規模供應商也沒有完全達到這一程度水平。”
通常情況下,當一家公司在市場競爭中面臨對手的競爭時,落后的企業將積極部署現代化。經常,當他們采用一些超大型數據中心運營商的經驗教訓時,Gan說。
但是,這一過渡不可能非常突然,也不會非常簡單。相反,這需要分階段完成,他指出,他所在的公司正在與逐漸刪除HA和RAS系統管理功能的公司合作。他說,擁有一套旨在部署,管理和監控服務器的軟件的公司不應該從消除整個套件開始。而應該轉移到Redfish環境——借助一款標準的RESTful API來管理服務器——將其作為一個初始步驟。
Gan表示,企業組織很容易了解到保持競爭力的驅動力,但是,在數據中心操作人員面臨這么多不熟悉的概念和技術的前提下,很難順利和有條不紊地完成整個過程。
云計算
大型公共云服務數據中心的特點已經開始在更典型的企業組織通過使用企業內部部署的本地產品中更頻繁地出現了。分析公司IDC的一名研究主管Kuba Stolarski說,在超大規模云提供商架構之后,超融合基礎設施在一般性的普通企業也開始被建模。
他說:“這真的是采用了Google,Facebook等的模式來確定如何更有效地進行虛擬化存儲。”
Vantage公司的Yetman說,在另外一些企業組織機構的數據中心中已經開始出現的進步是軟件定義的網絡。
Yetman說:“一家像AWS或微軟這樣的大型云服務提供商所做的便是尋求方法來削減更高的成本開銷。”
這導致了低成本交換機的設計和開發。他說,企業可以復制傳統供應商所提供的產品,并避免每臺交換機花費數千美元,轉而購買800美元的產品,也同樣奏效。
Facebook、微軟Azure和AWS都使用標準硬件來構建自己的路由器版本。一些具有定制基礎設施的大公司,如Facebook和LinkedIn,已經分享了他們的設計。 Yetman說:“每家企業都可以從中受益,并以更低的成本構建一個網絡,而且仍然可以合理地獲得支持。”
Uptime的Traver,還擁有二十多年在IBM從事各種數據中心設計和效率項目的經驗,他表示說,超大規模云服務提供商對數據中心的有條不紊的管理使他們與大多數企業組織區別開來。
超大規模數據中心運營商知道如何在任何特定情況下做出反應,而許多企業則可以從中獲益。
例如,一項典型的業務可能依賴于員工之間經常互相交流來運行數據中心。相反,超大型數據中心運營商可能在世界各地的數據中心位置擁有數百人負責運維。為了整合分布式知識,超大規模運營商通常使用文檔化的方法來維護特定的運行書。
效率自動化
超大規模運營商的效率在很大程度上來自于人工手動流程的自動化和使用同質的服務器。
Traver說,企業已經開始減少在數據中心中安裝各種類型的服務器和虛擬機了。數據中心運營商的變化越來越小,可以更好地管理工作負載。高效的企業組織將把服務器與管理所有服務器整體的協調層組合在一起。
為了達到峰值利用率,數據中心運營商需要預測實際機架載荷,這對于大多數大型企業而言是困難的,Aligned數據中心***執行官Jakob Carnemark說。
他說,超大型數據中心的密度通常平均每機架15千瓦,這是目前大多數數據中心密度的五倍。企業組織需要預測數據中心密度,以便管理基礎架構效率。
Carnemark表示:“除極端超大規模企業以外,任何企業都可以做到這一點。”
Yetman表示,銷售數據中心產品的供應商已經注意到超大規模云提供商所采用的策略,并應盡快開發可供更多典型客戶使用的管理工具。
例如,Google已經開始使用人造智能(AI)來管理其數據中心的冷卻。這使得他們每年在冷卻成本方面實現了10%的節約。任何企業對于冷卻成本減少10%無疑都是相當歡迎的。對于Google而言,這意味著節省1億美元。
“如果DCIM提供商們足夠聰明,那么他們將會看到他們如何能夠復制這種成功,并將效率傳遞給他們的客戶,而這些客戶往往是企業。”Yetman說。
雖然AI對于許多公司來說太復雜了,但至少有一家或兩家供應商將能夠很快復制Google所做的工作,以幫助企業組織以類似的方式管理數據中心環境。
除了缺少超大規模外,沒有什么其他的因素會妨礙一般性的企業組織的數據中心實現超大型數據中心的效率。
克里斯坦森說,一家已經認識到需要實施類似云服務效率的企業往往會試圖讓整個數據中心團隊都參與進來。如果有阻力,他已經看到有公司會讓另一個團隊來做。
他說:“這另一支團隊將會帶來一個新的想法和理念,并嘗試做出改變,但這另一只團隊的運作會隨著時間的推移變得不那么有價值。因為事情的變化是很快的,人們需要不斷的調整。