下一代PCIe是可組合基礎設施進步的關鍵
IT 中充斥著各種有前景的想法,而其中有些從未實現。隨著過去五年人們對可組合基礎設施的興趣趨于平緩,有的人可能會將其歸類為失敗的想法,該技術是將硬件資源從其主機中分離。但我們還沒有準備放棄這個想法,盡管可用的少量使用數據并不樂觀。
Statista對IT主管和經理的一項調查發現,只有11%的受訪者擁有可組合系統的生產部署,而52%的大多數人對該技術不感興趣。事實上,在調查的10項技術中,可組合基礎設施的關注度最低。
盡管如此,在過去幾年中還是出現了一些重要的產品開發。這些發展為可組合傳播者帶來希望,讓他們相信可組合基礎設施可能應用在企業中,特別是在為高性能計算 (HPC) 和 AI 工作負載構建大型集群的企業中。
硬件可組合性:背景和技術
可組合硬件的想法可以追溯到大約十年前,當時Calxeda 構建了一個具有集成 10 Gb 以太網結構的橫向擴展、模塊化 Arm 服務器。當時這個速度很快,并且連接了機箱中的相鄰節點。Calxeda盡管不再存在,但其知識產權現在由Silver Lining Systems使用,它最初被惠普用于其Project Moonshot服務器,可以說是構建可組合軟硬件系統的第一次嘗試。然而,惠普隨后放棄了它,轉而使用英特爾的新Atom處理器。Moonshot已發展成為HPE的Synergy產品線。
當另一家初創公司Liqid于2015年推出基于PCIe結構的可組合硬件的新方法時,這一概念得到進一步發展。Liqid系統的核心部件包括基于Broadcom組件的PCIe交換機。軟件管理系統可幫助配置和連接裸機服務器,這些服務器由CPU、內存、網絡接口卡 (NIC)、存儲、GPU和現場可編程門陣列 (FPGA) 資源組成,這些資源集中在連接的服務器和擴展機箱中。
為什么選擇 PCIe?
Liqid 最初使用內部設計的交換機,圍繞 PLX 的芯片構建。后來它采用了Broadcom的 PEX8700 和 PEX9700 PCIe Gen 3.0 交換機芯片。在2020 年年中,Liqid和Broadcom合作開發了 PCIe Gen 4.0 參考設計。此次合作使用 Broadcom 的 PEX88000 交換機,其吞吐量是其 Gen 3.0 部分的兩倍,每個端口的帶寬為每秒 256 千兆傳輸。這些交換機提供 24 或 48 端口配置。每個端口默認為四個 PCIe 通道,可配置為 x8 或 x16,端口到端口延遲為 100 納秒。
由于 PCIe 普遍存在于現代處理器中、高帶寬(每通道 64 Gbps)、低延遲、無損傳輸和直接內存訪問 (DMA) 支持,PCIe 成為服務器集群和可組合基礎設施的理想互連。其非透明橋接功能使主機處理器能夠將交換機端口視為 PCIe 端點。第 4.0 代交換機(例如 Broadcom PEX88000)嵌入了 Arm 處理器,用于配置、管理和處理熱插拔事件。它們通過 I/O 共享和 DMA 等功能提供非阻塞、線速性能。
PCIe 的缺點包括端口成本比以太網更高,以及對電纜長度的嚴格限制,將結構限制在服務器機架內。因此,以太網和 InfiniBand 已成為可組合基礎設施的替代方案。例如,Liqid 宣布多結構支持所有資源類型的可組合性:CPU、內存、GPU、NIC、FPGA 和存儲,跨所有主要結構類型,包括 PCIe Gen 3.0、Gen 4.0、以太網和 InfiniBand。而相比之下,HPE 在其 Synergy 可組合產品中僅支持以太網,以及用于存儲的光纖通道 (FC)。
可組合架構的應用
可組合基礎設施最初被提議作為在 AI 環境中經濟高效地共享昂貴 GPU 的方式,特別是對于計算量更密集的模型訓練。然而,組合式對于 HPC 集群和裸機云基礎設施也是可行的,尤其是對于較小的利基提供商。它還適用于多租戶邊緣計算集群,例如,在 5G 基站或云“微”區域。多節點可組合架構(使用 PCIe 到 NVMe、NVMe-oF、FC 或 InfiniBand )是分布式橫向擴展存儲系統的流行選擇,其中 NVMe 磁盤池與服務器集群共享。
盡管與 PCIe 架構無關,但 PCIe NIC、GPU 和 FPGA 卡越來越多地在多個 VM 之間共享和虛擬分割,這些VM使用 Nvidia 虛擬 GPU、FPGA 共享、SmartNIC 和數據處理單元 (DPU) 等技術。例如,VMware 最近推出了 Project Monterey 來擴展一些功能VMware Cloud Foundation 到 DPU,例如 Nvidia 的 BlueField-2。該軟件使DPU的多個Arm內核能夠托管ESXi實例,從主機CPU卸載網絡和存儲服務。
從長遠來看,VMware Cloud首席技術官Kit Colbert 認為Monterey會不斷發展以支持多個主機和其他硬件加速器。
他在一篇博客文章中說:“該項目使我們能夠重新思考集群架構,并使集群更具動態性、更受 API 驅動,并針對應用程序需求進行更優化。我們通過硬件可組合性來實現這一點。”
跨服務器共享和動態分配硬件資源的選項正在成倍增加。它們提供對硬件加速器的更廣泛訪問,以及通過更高的資源利用率降低成本。