數據中心管理者如何為AI和ML的爆炸式增長做好準備?
生成式人工智能和機器學習 (ML) 迅速進入公眾意識,使人們對這些有前景的技術的功能產生了新的關注。 大語言模型開發的進步使人工智能技術通過 ChatGPT 等聊天機器人和 DALL-E 3 等圖像生成器更容易為公眾所接受。但消費者技術只是觸及了人工智能潛力的表面——這些技術正被企業用來支持供應鏈管理、財務分析、營銷、搜索、圖像生成等。
人工智能行業預計將在未來十年大幅增長,到2030年將達到近2萬億美元。隨著技術的不斷改進和政府對其實施越來越放心,醫療保健、移動性、能源發電和電力設施等行業將擴大人工智能技術的使用范圍,以推動更簡化的業務實踐并為客戶帶來更好的結果。
新技術、新數據中心需求
客戶可能已經習慣了人工智能和ML應用程序的精簡界面,但數據中心管理人員知道必須在幕后處理大量數據才能實現這些體驗。這需要處于IT開發前沿的高性能芯片。
實現人工智能的強大芯片需要精確的電源管理,更重要的是需要冷卻。高級應用程序散發的熱量要求數據中心管理人員適應高熱負載,同時保持擴展運營以滿足需求的能力。 更復雜的是,增加物理占地面積可能并不總是一種選擇——數據中心經理和工程師通常需要解決在同一空間中安裝更多計算能力的技術挑戰。 此外,來自各個垂直領域的客戶始終需要 24/7 的正常運行時間,因此通常需要在不完全重塑或重組數據中心架構的情況下滿足人工智能應用程序的需求。
冷卻方法必須轉變
對于希望支持人工智能基礎設施和下一代高性能芯片的裝置,傳統的冷卻方法是不夠的。 試圖通過高速空氣冷卻來管理不斷增加的熱負荷的數據中心將很快變成類似風洞的環境,難以工作且運營成本昂貴。 此外,當空氣冷卻系統超時工作以維持必要的工作溫度時,設施將面臨設備故障、計劃外停機和高能源成本的風險。 液體冷卻為許多數據中心提供了更好的解決方案。
無論是完整的液體冷卻解決方案還是混合解決方案,將液體冷卻引入數據中心架構都可以在節省能源的同時提高性能。 然而,對于正在設計或改造以適應最高科技應用的數據中心,液體和直接芯片冷卻通常是唯一可能的選擇。
液體冷卻系統可以幫助數據中心增加容量,同時保持空間和能源的高效利用。 它們還可以降低數據中心設施的總擁有成本。 液體冷卻系統為實現下一代技術所需的溫度參數提供了有效的解決方案,因為液體的傳熱能力比空氣大得多。 這提高了電力使用效率——衡量數據中心使用設施電力進行計算而不是輔助系統的效率。
大規模解決方案
對于無法實現完全液冷架構的數據中心,有多種選擇。 數據中心可以冷卻容納人工智能和機器學習應用程序的單個機架或一小組機架。 這意味著他們不需要部署全尺寸的液冷數據大廳。
在實施這些現場解決方案時,數據中心經理需要了解未來的業務計劃。 使用專用的冷卻解決方案來解決獨特的問題是一種可行的方法,但由于成本、能源效率和其他因素,一個問題的解決方案可能無法解決另一個問題。 所有數據中心經理都明白,不同的挑戰需要不同的解決方案,而一刀切的方法很少會成功。 這可能意味著規劃下一代數據中心采用完全液體冷卻,或探索混合液體-空氣解決方案,將液體冷卻帶到機架和芯片級別,同時在風冷基礎設施中運行。
此外,許多數據中心正在通過安裝帶有歧管的服務器機架以及液體冷卻所需的額外管道注意事項來為下一代冷卻做好準備。 這使得數據中心能夠在液體冷卻到來時輕松過渡到液體冷卻,因為它們的機架級基礎設施已經與設施液體兼容。
規劃未來和了解 IT 工作負載將帶來的最大優勢是認識到幾乎所有潛在的冷卻解決方案都可以組合構建,從而使數據中心管理人員能夠根據不斷變化的需求來匹配其電源和冷卻能力。 可持續增長的關鍵是支持下一代設備的多種靈活選擇。 液體冷卻技術有助于提高靈活性。
其他基礎設施考慮因素
除了冷卻之外,數據中心基礎設施的其他部分對于人工智能和機器學習技術的部署也很重要。 例如,智能配電單元 (PDU) 的遠程監控和控制功能可以提高能源效率,同時降低停機風險。
泄漏檢測也很重要。 在設施層面,液體可以通過多種方式進入數據中心。 設施水管如果保護不當,可能會凍結和爆裂。 備用發電機可能會泄漏燃料。 在某些情況下,液體冷卻管路可能會損壞。 泄漏檢測技術可幫助數據中心管理人員遠程查明泄漏的確切來源并關閉設備以防止損壞。 這種設備的遠程監控和控制對于此類緊急情況以及密切關注數據中心的日常效率和平穩運行至關重要。
人工智能、機器學習和高性能計算的激增已經給數據中心管理人員帶來了許多新的挑戰,但如果有了正確的支持解決方案和系統,它也將帶來令人興奮的機遇。 憑借精心設計的冷卻和電源技術,數據中心經理和消費者都可以從這項令人興奮的技術中受益。