針對AI工作負(fù)載優(yōu)化數(shù)據(jù)中心的四種方法
AI有望以多種方式改變數(shù)據(jù)中心,例如改變數(shù)據(jù)中心就業(yè)市場以及改進(jìn)數(shù)據(jù)中心監(jiān)控和事件響應(yīng)操作。
然而,AI可能對數(shù)據(jù)中心產(chǎn)生的最大影響是改變數(shù)據(jù)中心的工作方式。對于那些想要充分利用現(xiàn)代AI技術(shù)的企業(yè)來說,數(shù)據(jù)中心所容納的基礎(chǔ)設(shè)施及其管理方式必須有所改變。
AI將會引發(fā)數(shù)據(jù)中心怎樣的發(fā)展還有待觀察,但以下是一些值得期待的關(guān)鍵變化。
AI對數(shù)據(jù)中心的獨(dú)特需求
要評估AI對數(shù)據(jù)中心的影響,你必須首先了解的是AI工作負(fù)載與數(shù)據(jù)中心中其他類型的工作負(fù)載(例如標(biāo)準(zhǔn)應(yīng)用托管)之間有什么不同。
雖然AI工作負(fù)載有很多形式且要求各異,但大多數(shù)都滿足以下的獨(dú)特需求:
- 需要大量的計算資源,尤其是在執(zhí)行模型訓(xùn)練的時候。
- 運(yùn)行在裸機(jī)硬件上使其從中受益,特別是那些可訪問GPU資源的服務(wù)器。
- 資源消耗率可能會大幅波動。在訓(xùn)練階段,AI工作負(fù)載需要大量的資源,但訓(xùn)練完成之后,大多數(shù)情況下資源消耗會顯著下降,直到再一次訓(xùn)練模型。
- 需要超低延遲的網(wǎng)絡(luò)才能實時做出決策并交付結(jié)果。
當(dāng)然,其他類型的工作負(fù)載也可能有這些要求,例如,運(yùn)行AI應(yīng)用和服務(wù)并不是唯一可以從裸機(jī)服務(wù)器中受益的用例,但總的來說,AI軟件要比其他類型的工作負(fù)載需要更多上述資源。
為了AI升級數(shù)據(jù)中心
為了優(yōu)化AI工作負(fù)載的設(shè)施,許多數(shù)據(jù)中心運(yùn)營商需要做出改變,以滿足AI獨(dú)特的需求。以下是數(shù)據(jù)中心在這方面的關(guān)鍵升級。
- 重新設(shè)計或更換裸機(jī)服務(wù)器
至少在過去十年中,虛擬機(jī)一直是托管工作負(fù)載的首選基礎(chǔ)設(shè)施資源。但考慮到AI應(yīng)用和服務(wù)對于裸機(jī)硬件的需求,有越來越多的數(shù)據(jù)中心運(yùn)營商可能會發(fā)現(xiàn)擴(kuò)展裸機(jī)產(chǎn)品變得十分重要。
在某些方面,這實際上是簡化了數(shù)據(jù)中心的運(yùn)營。如果你在裸機(jī)上運(yùn)行工作負(fù)載,最終會得到一個不太復(fù)雜的托管堆棧,因為你沒有混合使用虛擬機(jī)管理程序和虛擬機(jī)編排器。
另一方面,擴(kuò)展用于托管工作負(fù)載的裸機(jī)基礎(chǔ)設(shè)施可能需要數(shù)據(jù)中心對托管的服務(wù)器以及服務(wù)器所在的機(jī)架進(jìn)行更新升級。傳統(tǒng)上看,在數(shù)據(jù)中心設(shè)置服務(wù)器的最簡單方法,就是配置非常強(qiáng)大的裸機(jī)機(jī)器,然后根據(jù)工作負(fù)載的需求將其分配到任意數(shù)量的虛擬機(jī)中。但如果你需要直接在裸機(jī)上運(yùn)行工作負(fù)載,那么則可能需要更多的服務(wù)器來隔離工作負(fù)載——這意味著數(shù)據(jù)中心必須將高功率服務(wù)器更換為較小的服務(wù)器,并且可能要相應(yīng)地更新服務(wù)器機(jī)架。
- 共享支持GPU的服務(wù)器
盡管在AI工作負(fù)載進(jìn)行訓(xùn)練的時候,使用支持GPU的服務(wù)器是有利的,但AI應(yīng)用不一定需要GPU來進(jìn)行日常操作。因此,許多企業(yè)只需要臨時訪問支持GPU的基礎(chǔ)設(shè)施即可。
為了滿足這一需求,數(shù)據(jù)中心運(yùn)營商應(yīng)該考慮那些讓企業(yè)能夠共享基于GPU的基礎(chǔ)設(shè)施的產(chǎn)品。少數(shù)企業(yè)可能希望擁有配備GPU的服務(wù)器,因為他們并不會永遠(yuǎn)都需要這種服務(wù)器。但如果數(shù)據(jù)中心運(yùn)營商能夠臨時提供對GPU資源的訪問(例如通過GPU即服務(wù)的模式),那么他們就能夠更好地吸引那些有AI工作負(fù)載需求的企業(yè)。
- 增強(qiáng)的網(wǎng)絡(luò)解決方案
大多數(shù)企業(yè)級數(shù)據(jù)中心已經(jīng)提供了對高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施的訪問,以及有助于盡快將數(shù)據(jù)移動到外部設(shè)施的互連。但為了充分利用AI,數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)品可能需要變得更加強(qiáng)大。
那些擁有AI工作負(fù)載的企業(yè)需要兩個關(guān)鍵功能:首先,高帶寬網(wǎng)絡(luò)連接,可以非常快速地移動大量數(shù)據(jù),這在分布式基礎(chǔ)設(shè)施上訓(xùn)練AI模型的時候尤其重要。其次,網(wǎng)絡(luò)能夠提供個位數(shù)的延遲,如果你希望AI應(yīng)用和服務(wù)真正做到實時執(zhí)行,這一點至關(guān)重要。
- 更高的數(shù)據(jù)中心靈活性
由于AI工作負(fù)載的資源需求波動很大,因此可能需要在支持基礎(chǔ)設(shè)施數(shù)量方面更加靈活的數(shù)據(jù)中心。AI還可能讓人們更加需要能夠讓企業(yè)在其他數(shù)據(jù)中心內(nèi)按需部署服務(wù)器、而不是自己設(shè)置這些服務(wù)器的服務(wù),因為按需基礎(chǔ)設(shè)施是解決資源需求波動的一個好方法。
為此,那些想要優(yōu)化AI的數(shù)據(jù)中心運(yùn)營商應(yīng)該考慮使其設(shè)施更加靈活的產(chǎn)品。短期合同,和那些不僅僅包括了客戶可以建立自己基礎(chǔ)設(shè)施的機(jī)架空間服務(wù),二者的結(jié)合可能對于那些需要部署AI工作負(fù)載的組織來說是有吸引力的。
結(jié)論
AI變革仍在上演,現(xiàn)在想要確切地知道AI將如何改變數(shù)據(jù)中心的運(yùn)營方式或者其中部署的基礎(chǔ)設(shè)施類型,還為時過早。但可以相對肯定地是,支持GPU的服務(wù)器和更靈活的解決方案等變化,可能在以AI為中心的世界中變得至關(guān)重要。想要分一杯羹的數(shù)據(jù)中心運(yùn)營商應(yīng)該確保更新他們的設(shè)施,以滿足AI工作負(fù)載的獨(dú)特要求。