人工智能迫使數據中心重新思考設計
隨著人工智能在企業中的大規模應用,其后果之一是其消耗了數據中心更大比例的工作負載。
人工智能不僅將加速對數據中心的需求,為投資創造新的動力,而且還將對數據中心的可持續性戰略和要部署的基礎設施的性質產生影響。
例如,Tirias Research預測,按照目前的情況,到2028年,生成式人工智能數據中心服務器基礎設施加上運營成本將超過7600萬美元,是Amazon AWS目前估計年度運營成本的兩倍多,占全球云服務市場的三分之一。
預測硬件計算性能將提高400%,這與Tirias估計的處理工作負載將增加50倍相比,相形見絀。
更高的密度
根據Schneider Electric的一份新白皮書,大型訓練集群和小型邊緣推理服務器的爆炸式增長,也將意味著向更高機架功率密度的轉變。
白皮書稱:“人工智能初創企業、企業、主機托管提供商和互聯網巨頭現在必須考慮這些密度對數據中心物理基礎設施的設計和管理的影響。”
Schneider能源管理研究中心對人工智能對能源需求的影響做出了自己的預測。據估計,人工智能目前代表著4.3GW的電力需求,到2028年將以26%至36%的復合年增長率增長。
這將導致總需求達到13.5GW至20GW,是數據中心整體電力需求增長的兩到三倍。到2028年,人工智能工作負載將占數據中心總能源的20%。
Schneider指出,雖然預計會比訓練集群消耗更多的電量,但推理工作負載可以在各種機架密度下運行。
“另一方面,人工智能訓練工作負載一直以非常高的密度運行,每個機架的功率在20-100 kW或更高。”
“網絡需求和成本推動這些培訓機架聚集在一起。這些極高功率密度的集群從根本上挑戰了數據中心的電源、冷卻、機架和軟件管理設計。”
動力系統的挑戰
Schneider概述了四個關鍵領域可能產生的影響:電源、冷卻、機架和軟件管理。
在電力方面,人工智能工作負載對開關設備和配電系統的動力系統提出了挑戰。
目前使用的一些電壓將被證明部署起來不切實際,而較小的配電塊尺寸可能會浪費IT空間。較高的機架溫度也會增加發生故障和危險的機會。
隨著數據中心過渡到液體冷卻,冷卻將是至關重要的,也是需要進行重大改變的領域之一,半個多世紀以來,液體冷卻一直用于專業高性能計算。
Schneider表示:“盡管在不久的將來,空氣冷卻仍將存在,但預測,從空氣冷卻到液體冷卻的轉變將成為具有人工智能集群的數據中心的首選或必要解決方案。”
“與空氣冷卻相比,液體冷卻具有許多優點,例如提高處理器可靠性和性能、節省空間和更高的機架密度、管道中水的熱慣性更大以及減少用水量。”
對于人工智能集群,服務器需要更深入,電力需求更大,冷卻也更復雜。
因此,機架需要具有更大的密度和承重能力。
數字孿生
最后,DCIM、BMS和電氣設計工具等軟件工具將成為管理人工智能集群的關鍵。
適當配置和實施的軟件可以提供數據中心的數字孿生,以識別功率限制和冷卻資源的性能,從而為更好的布局決策提供信息。
在日益動態的環境中,容錯空間越小,操作風險就會越高。因此,Schneider建議創建整個IT空間的數字孿生,包括機架中的設備和虛擬機。
”通過數字化添加或移動IT負載,可以驗證是否有足夠的電力、冷卻和地板承重能力來支持。這為決策提供了信息,以避免資源擱淺,并最大限度地減少可能導致停機的人為錯誤。“