AI數據周期:適合大規模AI工作負載的最佳存儲組合
譯文譯者 | 布加迪
審校 | 重樓
雖然AI在徹底改變人們的生活,并激發各種全新的應用,但從根本上來說,其核心是數據使用和數據生成。
隨著AI行業擴建龐大新穎的基礎設施來訓練AI模型,并提供AI服務(推理),數據存儲方面帶來了重要影響。首先,存儲技術在這種新基礎設施各個階段的成本和能效方面發揮著重要作用。當AI系統處理和分析現有數據時,生成新數據,其中大部分數據將因有用而被存儲起來。新的AI用例和更復雜的模型使現有的存儲庫和額外的數據源對模型上下文和訓練更有價值,從而帶動了這種循環:生成的數據增加推動了數據存儲擴展,從而推動了進一步的數據生成,這是良性的AI數據循環。
對于企業數據中心規劃者來說,了解AI和數據存儲之間的動態關系很重要。AI數據周期概述了六個階段中每個階段大規模AI工作負載的存儲優先事項。存儲部件制造商正在調整產品路線圖,認識到這些加速的AI推動的需求:盡量提升性能、最遲降低總體擁有成本(CTO)。
不妨快速瀏覽一下AI數據周期的各個階段:
原始數據存檔和內容存儲
從各種來源安全高效地收集和存儲原始數據。收集數據的質量和多樣性至關重要,這為隨后的一切奠定了基礎。
存儲需求:大容量企業硬盤驅動器(eHDD)仍然是低成本批量數據存儲的首選技術,繼續提供最高的每個驅動器容量和最低的每比特成本。
數據準備和攝取
數據被處理、清理和轉換,作為模型訓練的輸入。數據中心的所有者正在實施經過升級的存儲基礎設施(比如快速數據湖),以支持數據準備和攝取。
存儲需求:整合大容量企業固態硬盤(eSSD)的全閃存存儲系統正在被部署,以增強基于HDD的現有存儲庫,或者部署在新的全閃存存儲層中。
AI模型訓練
正是在這個階段,AI模型被迭代訓練,基于訓練數據做出準確的預測。具體來說,模型在高性能超級計算機上進行訓練,訓練效率很大程度上依賴GPU利用率的最大化。
存儲需求:訓練服務器附近的超高帶寬閃存存儲對于確保利用率最大化非常重要。高性能(PCIe?Gen. 5)和針對低延遲計算優化的eSSD旨在滿足這些嚴格要求。
推理和提示
這個階段為AI模型創建對用戶友好的界面,包括API、儀表板以及將上下文特定的數據與最終用戶提示相結合的工具。AI模型被集成到現有的互聯網和客戶端應用程序中,在不取代現有系統的情況下增強它們。這就意味著維護當前的系統以及新的AI計算,推動進一步的存儲需求。
存儲需求:當前的存儲系統將升級,以便額外的數據中心eHDD和eSSD容量適應AI集成到現有流程中。同樣,若要利用AI增強現有的應用系統,將需要用于PC和筆記本電腦的更大容量、更高性能的客戶端SSD(cSSD)以及用于移動電話、物聯網系統和汽車的更大容量嵌入式閃存設備。
AI推理引擎
第五階段是奇跡實時發生的地方。這個階段包括將訓練好的模型部署到生產環境中,模型可以分析新數據,并提供實時預測或生成新內容。推理引擎的效率對于及時準確的AI響應至關重要。
存儲需求:用于將上下文或模型數據流式傳輸到推理服務器的大容量eSSD;視規模或響應時間目標而定,可以部署高性能計算eSSD用于緩存;支持AI的邊緣設備中的高容量cSSD和更大的嵌入式閃存模塊。
新內容生成
最后一個階段是創建新內容。AI模型獲得的見解常常生成新的數據,這些數據被存儲起來,因為它們被證明有價值或引人入勝。在這個階段閉合循環的同時,也反饋回到數據周期中,通過增加訓練數據的價值或供未來模型分析,推動持續改進和創新。
存儲需求:生成的內容將返回到用于歸檔數據中心存儲的大容量企業eHDD中,以及支持AI的邊緣設備中的高容量cSSD和嵌入式閃存設備中。
數據生成增加的自我延續循環
這種數據生成和消費的持續循環正在加速對性能驅動、可擴展的存儲技術的需求,以管理大型AI數據集,并有效地重構復雜數據,從而推動進一步的創新。
IDC研究總監Ed Burns特別指出:“隨著存儲的作用和數據訪問影響AI模型的速度、效率和準確性,尤其是在更龐大、更高質量的數據集變得更普遍的情況下,預計存儲會帶來重大的影響。”
毫無疑問,AI是下一種變革性技術。隨著AI技術融入到幾乎所有行業領域中,預計存儲部件供應商將日益根據周期中每個階段的需求來定制產品。
原文標題:The AI Data Cycle: Understanding the Optimal Storage Mix for AI Workloads at Scale,作者:Dan Steere