AI/ML存儲環(huán)境架構的三個技巧
人工智能徹底改變了我們周圍的世界,其革命性影響源于它分析大量數據、從中學習并提供見解和自動化能力。這些數據通常分布在數據倉庫、數據湖、云和本地數據中心中,確保關鍵信息能夠被訪問和分析,以適應當今的人工智能計劃。
人工智能激增的影響之一是傳統(tǒng)商業(yè)模式的顛覆。組織越來越依賴人工智能來增強客戶體驗、簡化運營和推動創(chuàng)新。為了最大限度地發(fā)揮人工智能的優(yōu)勢,采用先進的存儲架構至關重要。NVMe over Fabrics(NVMe-oF)提供AI工作負載所需的低延遲、高吞吐量訪問,加速性能并減少潛在瓶頸。實施分類存儲可以實現更大的靈活性,并能夠獨立擴展存儲和計算,以最大限度地提高資源利用率。未能實施最合適的架構并將人工智能集成到其模型中的企業(yè)有可能在數據驅動的世界中落后。
部署機器學習模型時的注意事項
組織一直面臨著盡快從數據中獲取盡可能多價值的壓力,但他們必須以不妨礙正常業(yè)務運營的成本效益方式這樣做。因此,依賴本地或云端的存儲不再那么理想。
組織需要構建高性能、靈活和可擴展的計算環(huán)境,以支持當今人工智能工作流程的實時處理需求。在這些用例中,高效的專用數據存儲至關重要,組織應考慮數據量、速度、多樣性和準確性。
組織現在能夠在本地數據中心構建類似公有云的基礎設施,使其具有云的靈活性和可擴展性,并具有私有基礎設施的控制和成本效益。如果架構正確,這些環(huán)境可以提供更大的性價比,提供了一種更有效的方式來支持為人工智能應用程序準備的存儲環(huán)境的高性能、高度可擴展的要求。事實上,對于在一定性能或成本限制范圍內運營的組織來說,將AI/ML數據集從云端匯回本地數據中心可能是一個理想的選擇。
為人工智能應用構建本地存儲環(huán)境
組織可以構建強大的存儲環(huán)境,具有公有云的靈活性和規(guī)模,但具有私有基礎設施的可管理性和一致性。以下是構建本地存儲環(huán)境時需要考慮的三件事,非常適合當今AI/ML驅動的世界的需求:
服務器選擇:人工智能應用程序需要大量的計算資源來快速有效地處理和分析機器學習數據集,因此選擇合適的服務器架構至關重要。然而,最重要的是能夠在不造成系統(tǒng)瓶頸的情況下擴展GPU資源。
高性能存儲網絡:同樣重要的是要包括高性能的存儲網絡,它不僅能夠滿足(并超過)GPU不斷增長的性能需求,而且能夠提供可擴展的容量和吞吐量,以滿足學習模型數據集的大小和性能需求。利用直接路徑技術的存儲解決方案可以實現GPU到存儲的直接通信,從而繞過CPU來提高數據傳輸速度、減少延遲并提高利用率。
基于開放標準:最后,解決方案應該與硬件和協(xié)議無關,提供多種連接到服務器和存儲到網絡的方式。基礎設施的互操作性將大大有助于為人工智能應用構建一個靈活的環(huán)境。
構建新架構
在本地構建類似公有云的基礎設施可能會提供一個可靠的選擇——為組織提供云的靈活性和可擴展性,同時提供私有基礎設施的控制和成本效益。然而,重要的是,在做出正確的存儲架構決策時,要考慮到人工智能的因素——提供人工智能應用程序以業(yè)務速度移動所需的計算能力和存儲容量的正確組合。
確保適當資源分配和減少瓶頸的一種方法是采用存儲分解。獨立擴展存儲允許GPU飽和,否則在使用超融合解決方案的許多AI/ML工作負載中可能會遇到挑戰(zhàn)。這意味著可以在不影響性能的情況下有效地擴展存儲。