AI時代CIO如何應對GPU匱乏
通過采用模型優先的心態、優化利用率和戰略性地運用負載平衡,首席信息官可以緩解芯片短缺。
譯自How CIOs Can Battle GPU Poverty in the Age of AI,作者 Liam Crilly。
人工智能時代的淘金熱已經到來,但對于許多公司來說,鶴嘴鋤卻處于缺貨狀態。隨著人工智能需求的激增,一種被稱為“GPU 匱乏”的現象正在困擾 CIO,其速度超過了建立數據中心以及更重要的是為其提供動力所需的芯片的能力。
簡而言之,GPU 匱乏意味著希望將 GPU 用于人工智能計算的組織根本無法在這些強大的并行處理系統上購買容量,而這些系統是運行許多類型機器學習的最有效方式。
這種稀缺性源于完美風暴的完美風暴。強大的圖形處理單元的全球芯片短缺已導致初創公司專門籌集資金來購買 GPU——當你考慮到在獲得收入之前進行大規模資本支出正是云計算解決的問題時,這是一種瘋狂的策略。然后是人工智能工作負載不斷增長的需求。
隨著越來越多的企業尋求利用 OpenAI 和 Google 等公司的人工智能服務或利用云中的人工智能模型和工具鏈,它們增加了對 GPU 定價的壓力——使 GPU 進一步超出初創公司和其他缺乏資金的組織的承受范圍。
GPU 匱乏正在整個供應鏈以及人工智能構建者的整個工具帶上上下波動。數據中心建設設備面臨著備用發電機和變壓器等需求核心組件的多年積壓。即使是尋找擁有廉價房地產、廉價且充足的電力以及與全球互聯網快速連接的合適地點也變得更加艱巨。
然后是芯片缺失的問題。半導體制造廠正在努力跟上步伐,他們快速建造新工廠的努力只會經過許多年才能取得成果。
與此同時,超大規模云提供商和大型企業正在吞噬有限的 GPU 生產供應,導致價格暴漲。對于許多公司,特別是那些沒有無底預算的公司來說,在云中訪問 GPU 以用于人工智能應用程序的困難正在成為重大的業務風險。
然而,聰明的 CIO 可以通過常識性步驟來降低運行企業人工智能的資源需求,從而緩解 GPU 瘋狂。
使用節儉模型和推理
就像一個足智多謀的旅行者學會輕裝上陣一樣,數據科學家可以使用更小、更高效的人工智能模型取得驚人的成果。例如,微軟的 Phi-2 模型經過教科書和超高質量數據的訓練,既緊湊又節能,需要更少的計算來調整和推理。
量化和剪枝等較新的技術使研究人員能夠縮小龐然物模型,而不會犧牲準確性。TensorFlow Lite 等框架專門設計用于在邊緣設備上部署這些精簡模型,Hugging Face 等初創公司正在使預訓練的、高效模型的訪問民主化。負責 PyTorch 框架的團隊也在創造新的方法,以更少的數據和開銷有效地訓練模型。
優化一切
隨著 GPU 時間的平流層價格,優化人工智能工作負載可以快速且很好地獲得回報。人工智能工程和 MLOps 團隊應積極且頻繁地分析性能以識別瓶頸。這可能意味著對不同的配置(批次大小、GPU 數量)進行基準測試,以找到最適合你特定任務的最高效設置,因為它并不總是直接的。
精明的團隊將在訓練期間組合和調整數據精度(FP16、FP32 等)以減少內存使用并運行更大的批次大小。管理內存分配和數據移動,使用數據預取和精細定時數據傳輸等技術來緊密跟蹤計算可用性可能會有所幫助。
為人工智能作業找到理想的批次大小至關重要。較大的批次大小可以更好地利用 GPU,但過大會導致內存不足錯誤。進行實驗以找到最佳點。如果你有更大的 GPU 或預留了大量 GPU 容量,請務必試用 GPU 虛擬化軟件。這可以讓你重新利用訓練模型或進行更大調整所需的寶貴且稀有的計算,以解決人工智能應用程序操作所需的更普通的模型推理。
最后,如果可能,在容器的基礎上進行部署,該容器支持自動擴展,以根據實時需求動態調整分配給工作負載的 GPU 數量。這有助于避免過度配置,同時確保在高峰期有足夠的資源。
調整人工智能的負載平衡
經過適當調整的負載均衡解決了 GPU 匱乏的挑戰,同時確保 AI 作業獲得所需的資源,而不會出現超時,并提供了增強的安全性。它通過識別 AI 任務不同的計算需求而不同于傳統的負載均衡。
通過分析工作負載、評估其 CPU 和 GPU 需求以及優先處理時間敏感的操作,特定于 AI 的負載均衡器可以動態地在最合適的硬件上分配工作。這種方法保護了昂貴的 GPU,用于真正需要其功能的操作,同時將受 CPU 約束的工作卸載到更具成本效益的資源上。
至關重要的是,特定于 AI 的負載均衡引入了令牌管理控制的新維度。在令牌發揮作用(語言模型)的 AI 系統中,平衡負載不僅僅關乎硬件效率。負載均衡器可以監控與 AI 作業關聯的令牌使用情況,動態地重新路由請求以優化令牌消耗并防止成本超支。
此外,通過根據作業的潛在安全影響和令牌敏感性智能地路由作業,AI 負載均衡器有助于隔離高風險工作負載,為 AI 系統提供額外的保護層。實施此類負載均衡策略需要仔細考慮框架集成、穩健的監控以及基于云的 AI負載均衡解決方案的潛在成本節約。
經過 AI 調整的負載均衡器可能會提供更精細的控制——例如,基于令牌的速率限制,以及將作業運送或轉移到在令牌使用或成本方面最經濟的 LLM 集群的算法。
未來(希望)是富足的
好消息是,該行業并沒有坐以待斃。芯片制造商正在加大生產力度,專門為 AI 設計的新芯片架構即將面世。更多的 AI 數據中心將上線。許多聰明的開發人員和工程團隊正在不斷改進 AI 模型的工作方式,并減少訓練模型的負擔,同時保持或甚至提高性能。
但是,這些解決方案不會在一夜之間出現。與此同時,通過采用以模型為先的心態、優化利用率和戰略性地使用負載均衡,首席信息官可以減輕當前基礎設施泡沫的最嚴重影響,避免 GPU 匱乏,確保他們的組織擁有足夠的 AI 來完成需要完成的工作。