人工智能如何改變數據中心設計
隨著 2023 年至 2026 年間全球人工智能系統支出將翻一番,數據中心容量顯然將迅速增加以滿足需求。
然而,令人驚訝的是,過去一年許多數據中心運營商踩下了新項目的剎車并放緩了投資,2022-23 年間倫敦的空置容量下降了 6.3%。
這種反直覺趨勢背后的原因是什么? 為了解釋這一點,我們需要了解有關人工智能計算和支持它的基礎設施的一些問題。
人工智能如何改變數據中心基礎設施
數據中心歷來都是圍繞 CPU 供電的機架構建的,以處理傳統的計算工作負載。 然而,AI 計算需要 GPU 驅動的機架,與同等 CPU 容量相比,它會消耗更多電量、散發更多熱量并占用更多空間。
實際上,這意味著人工智能計算能力通常需要更多的電源連接或替代冷卻系統。
由于這是嵌入式基礎設施,因此它被構建在數據中心綜合體的結構中,即使在經濟上并非完全不可能,更換成本也往往極高。
在實踐中,運營商必須致力于在新數據中心中有多少空間專用于人工智能與傳統計算之間進行“劃分”。
如果犯了這個錯誤并過度致力于人工智能,可能會讓數據中心運營商面臨永久未充分利用和無利可圖的能力。
由于人工智能市場還處于起步階段,這個問題更加嚴重,Gartner 聲稱目前正處于炒作周期中預期過高的頂峰。 因此,許多運營商選擇在設計階段猶豫不決,而不是過早地承諾人工智能計算在新數據中心項目中的比例。
在設計階段采取整體方法
然而,運營商敏銳地意識到,他們只能冒險推遲投資,否則就會失去市場份額和競爭優勢。 但考慮到數據中心基礎設施的許多基本原理正在被實時重寫,這是一項艱巨的任務。
為了平衡先行者的需求和抵消風險,運營商需要將其數據中心設計得在人工智能計算時代具有最大的效率和彈性。 這需要一種全新的、整體的設計方法。
1、讓更多利益相關者參與
無論運營商決定如何區分人工智能和傳統計算,具有人工智能計算能力的數據中心站點都將比傳統設施復雜得多。 更高的復雜性通常意味著更多的故障點,特別是因為人工智能計算比傳統計算有更多的需求。
因此,為了保證站點生命周期內的正常運行時間并降低出現代價高昂的問題的風險,團隊需要在數據中心的規劃階段更加徹底。
特別是,設計階段應在項目開始時尋求更多團隊和專業知識的意見。 除了尋求電源和冷卻方面的專業知識外,設計人員還應該盡早與運營、布線和安全團隊合作,以了解潛在的瓶頸或故障來源
2、將人工智能融入數據中心運營
由于運營商現在在現場擁有人工智能計算,他們應該利用自己的能力利用人工智能來提高運營效率。 人工智能在數據中心的采用由來已久,該技術能夠以極高的精度和質量執行工作流程。 例如,人工智能可以幫助:
- 溫濕度監測
- 安全系統操作
- 用電監控和分配
- 硬件故障檢測和預測性維護
通過在數據中心生命周期的每個階段主動使用該技術,運營商可以顯著提高運營效率和穩健性。 人工智能非常適合幫助解決采用這些下一代數據中心新穎而復雜的布局時遇到的新挑戰,例如通過故障檢測和預測性維護。
3、避免虛假經濟
人工智能在高峰時段會給數據中心帶來更大的負載,例如在訓練運行期間或在生產中運行企業級模型時。 在此期間,人工智能計算通常會大大超出對功耗、冷卻需求和數據吞吐量的傳統預期。
從最基本的層面來看,這意味著數據中心的底層材料承受更大的壓力。 如果這些底層材料或組件質量不高,這意味著它們更容易出現故障。 由于人工智能計算意味著站點中組件和連接數量的急劇增加,這意味著在傳統站點中運行良好的更便宜和質量較低的材料可能會導致運行人工智能計算的數據中心停止運行。
為此,運營商應避免通過購買劣質材料(例如不合格的電纜)來節省資金。 這樣做會帶來虛假經濟的風險,因為這些材料更容易出現故障,并且需要更頻繁地更換。 但是,最有問題的是,不合格材料和組件的故障通常會導致工廠停機或減速,從而影響其盈利能力。
解決基礎設施難題
雖然人工智能計算的基礎設施要求可能是運營商拖延投資的主要原因,但從長遠來看,情況不會如此。
隨著市場不確定性的增加,企業將會在數據中心傳統計算和人工智能計算之間的分裂方面向他們的“金發地帶”靠攏。
當這種情況發生時,公司需要確保在學習和成熟的過程中,他們在網站運營中擁有一切可能的優勢。
這意味著從一開始就進行整體設計,利用人工智能本身來發現其站點的新效率,并投資于能夠滿足人工智能計算更大需求的優質材料。