AI工廠中的炒作與現實
AI工廠作為新興的數據中心概念,正引領著AI處理技術的革新,然而,其真正潛力如何?成本與挑戰又有哪些?本文將深入探討AI工廠的現狀與未來。
你可能聽說過“AI工廠”這個詞,但它到底意味著什么?到目前為止,這個概念更多地被炒作而非明確定義,主要是由英偉達在推動。該公司的愿景是數據中心里裝滿高端AI加速器,但這個愿景是現實可行的,還是只是戰略營銷手段?
簡而言之,AI工廠是專為AI處理而設計的專業化數據中心,而非用于托管數據庫、文件存儲、業務應用或網絡服務等傳統工作負載。AI工廠以GPU為核心構建,在處理AI工作負載時,GPU在速度和性能上均優于CPU。
AI工廠是專為處理大量數據以用于GenAI應用、訓練模型并生成文本、圖像、視頻或音頻等輸出而設計的設施。它們還負責更新AI系統并控制其他技術,包括機器人和超級計算機。
由于GPU運行溫度高且功耗大,與傳統數據中心相比,AI工廠需要更多的能源和冷卻。它們很可能被安置在能源成本低廉且水資源充足的地方,以便進行液冷。
一個例子是埃隆·馬斯克的xAI數據中心,該中心配備了10萬臺英偉達H100 GPU,用于高級AI處理。按每臺GPU 4萬美元估算,這代表了一位客戶超過40億美元的投資——這或許說明了為什么英偉達CEO黃仁勛繼續力推AI工廠的概念。
AI工廠:炒作與現實
雖然這個概念很吸引人,但我們真的會看到黃仁勛所承諾的AI工廠浪潮嗎?可能并不會大規模出現。AI硬件不僅購置和運營成本高昂,而且它并不像數據庫服務器那樣持續運行。一旦模型訓練完成,可能數月都不需要更新,導致這些昂貴的基礎設施閑置。
因此,專注于基礎設施和數據中心的Omdia首席分析師艾倫·霍華德認為,大多數AI硬件部署將發生在多功能數據中心。這些設施可能會設置專門的“AI區域”,同時配備用于標準計算和其他工作負載的區域。
“我們的感覺是,會有一些專門的AI數據中心,但不太可能像我們所被引導相信的那樣普及。”霍華德告訴記者。
“如果我在數據中心有一個5萬平方英尺的數據大廳,并且電力充足,那么我可以創建一個區域或套房,以滿足AI設備部署的高電力需求。你不會看到很多數據中心里全是AI設備……它將是更大數據中心的一部分?!?/p>
對大多數人來說成本過高
咨詢公司TEKsystems的首席技術官拉姆·帕拉尼阿潘同意專門AI數據中心將保持有限的觀點,這主要是由于涉及的高成本。
“企業在進行的數據推理遠比實際用數據訓練要多,”他說?!叭绻隳茉跀祿行膬葎澐謪^域,其中一些部分專門用于AI,你就可以用那部分GPU容量來訓練模型,然后剩下的CPU將用于模型推理。這就是我們看到的數據中心世界如何根據企業AI的消費和使用情況進行調整?!?/p>
電信數字化轉型提供商Amdocs的集團總裁兼戰略與技術負責人安東尼·古納蒂拉克認為,許多下一代AI工廠將通過AI即服務(AIaaS)模式提供給客戶租賃,像AWS等主要云服務提供商都提供這種模式。
“人們試圖建立AI工廠,從根本上創建一個模型,以便他們可以將AI能力作為一種服務來銷售,就像我們的一些客戶希望做的那樣?!惫偶{蒂拉克告訴記者。“歸根結底,可以將其視為GenAI基礎設施即服務。我認為AI即服務具有很多潛在的上行空間,因為AI硬件的投資非常昂貴,而且在很多情況下,你可能不再需要它,或者你可能不需要使用那么多?!?/p>
帕拉尼阿潘補充說,AI技術發展迅速,要跟上競爭步伐的成本高得令人望而卻步。“當你開始考慮這些GPU的成本,以及它們很快就會過時,這就會成為瓶頸,”他說?!叭绻阍噲D利用數據中心,你總是希望設施里能有最新的芯片,因此許多數據中心因為這些努力而虧損?!?/p>
別忘了網絡
除了GPU的成本,網絡硬件也需要大量投資,因為所有GPU需要高效地相互通信。EdgeCore Digital Infrastructure的戰略高級副總裁湯姆·特勞戈特解釋說,在典型的八GPU英偉達DGX系統中,GPU通過NVLink通信。然而,要與其他GPU共享數據,它們依賴于以太網或InfiniBand,這需要大量的網絡硬件來支持連接。
“當你進行訓練運行時,就像團隊中的個人一樣,”特勞戈特說。“他們都在同一個項目上工作,并且會定期集體匯合并交流心得?!?/p>
在較小的集群中,網絡成本與傳統數據中心相似。然而,在擁有5000、10000或20000個GPU的集群中,網絡成本約占整體資本支出的15%,他說。由于數據集如此龐大,單個網絡接口卡(NIC)很容易飽和,因此需要多個網絡連接。為了避免瓶頸,需要多個NIC——成本很快就會累積。
“顯然,這可能占到整體支出的30%至40%,這與前幾代相比是不成比例的?!碧貏诟晏馗嬖V記者。
AI工廠的未來
這仍然是一項非常新的技術。目前只有一個已知的正在開發的AI工廠,即xAI設施。英偉達最近才發布了構建AI工廠的藍圖,稱為企業參考設計,以幫助指導建設過程。隨著概念的發展,很多事情都可能發生變化,并且需要一些明確性。
“所以,這會是一個小趨勢,只有少數公司建立少數專門的AI工廠,還是會更大?我個人猜測,大概要過一年,我們才能更好地判斷新數據中心建設在AI工廠世界中是否基本上呈現出新的面貌。”霍華德說。