大模型“分區”部署在云和邊緣更合適? 原創 精華
作者 | David Linthicum
出品 | 51CTO技術棧(微信號:blog51cto)
眾所周知,大型語言模型(LLMs)需要大量的計算資源。這意味著開發和部署主要集中在強大的集中式系統上,如公共云提供商。然而,盡管許多人認為我們需要大量的GPU和龐大的存儲空間來運行生成式AI,但實際上,存在使用分層或分區架構為特定業務用例創造價值的方法。
不知怎的,有一種聲音認為,在生成式AI的時代背景下,邊緣計算似乎行不通。這是因為生成式AI模型的處理要求以及推動高性能推斷的需求。當我提出“邊緣知識”架構時,由于這種聲音,我常常受到質疑。我們錯過了巨大的創新機會,讓我們來看看吧。
1.“云+邊緣”混合LLM方法可行嗎?
這種混合方法使兩種基礎設施類型的效率最大化。在邊緣運行某些操作可以顯著降低延遲,這對于需要即時反饋的應用程序至關重要,例如交互式AI服務和實時數據處理。不需要實時響應的任務可以委托給云服務器。
對這些模型進行分區提供了一種平衡計算負載、提高響應速度并增加AI部署效率的方法。該技術涉及在邊緣設備、集中式云服務器或本地服務器上運行LLMs(大型語言模型)的不同部分或版本。
通過分區LLMs,我們實現了一種可擴展的架構,其中邊緣設備處理輕量級、實時任務,而繁重的計算則卸載到云端。例如,假設我們正在運行分布在世界各地的醫療掃描設備?;贏I的圖像處理和分析是這些設備價值的核心;然而,如果我們將巨大的圖像發送回某個中央計算平臺進行診斷,那將不是最優選擇。網絡延遲會延遲部分處理,如果網絡在某些情況下出現故障(這在許多農村地區可能會發生),那么你的業務就會受到影響。
大約80%的診斷測試可以在靠近掃描儀的低功率設備上正常運行。因此,掃描儀設計用于檢測的常規事物可以在本地處理,而需要更廣泛或更復雜的處理的測試可以推送到中央服務器進行額外診斷。
其他用例包括飛行中噴氣發動機部件的診斷。用戶會希望利用AI的力量來監控和糾正噴氣發動機操作中的問題,并且需要在接近實時的情況下糾正這些問題。將操作診斷推送回某些集中的AI處理系統不僅不是最佳選擇,而且也不安全。
2.為什么混合LLM架構沒有得到廣泛應用?
分區架構減少了延遲,節省了能源和計算能力。敏感數據可以在邊緣設備上本地處理,通過減少互聯網上的數據傳輸來緩解隱私擔憂。以我們的醫療設備為例,這意味著個人可識別信息的擔憂減少了,數據的安全性也更加直接明了。然后,云可以處理一般化、非敏感性的方面,確保采用分層安全方法。
那么,為什么沒有人使用它呢?
首先,它很復雜。這種架構需要思考和規劃。生成式AI是新的,大多數AI架構師也是新的,他們從推動云的云提供商那里獲取架構線索。這就是為什么讓特定云提供商的架構師設計你的AI系統不是一個好主意。你每次都會得到一個云解決方案。云提供商,我在看著你們。
其次,生成式AI生態系統需要更好的支持。它們為集中式、基于云的、本地的或開源的AI系統提供了更好的支持。對于混合架構模式,你必須自己動手,盡管市場上有一些有價值的解決方案,包括支持AI的邊緣計算工具集。
3.如何構建混合LLM架構
第一步是評估LLM(大型語言模型)和AI工具包,并確定哪些組件可以在邊緣有效地運行。這通常包括執行推理任務的輕量級模型或更大模型中的特定層。
復雜的訓練和微調操作仍然保留在云端或其他持久化系統中。邊緣系統可以預處理原始數據以減少其體積和復雜性,然后再將其發送到云端或使用其LLM(或小型語言模型)進行處理。預處理階段包括數據清洗、匿名化和初步特征提取,以簡化后續的集中處理。
因此,邊緣系統可以扮演兩個角色:它是將數據和API調用傳遞給集中式LLM的預處理器,或者它執行一些處理/推理,這些處理/推理最好使用邊緣設備上的小型模型來處理。這種混合邊緣/中心模型提供了最佳效率,因為兩個層級都在協同工作,同時我們也在使用盡可能少的資源來實現最大化效果。
為了使分區模型能夠協同工作,邊緣和云系統必須有效地同步。這需要強大的API和數據傳輸協議來確保系統通信的順暢。持續的同步還允許實時更新和模型改進。
最后,會進行性能評估以微調分區模型。該過程包括負載均衡、延遲測試和資源分配優化,以確保架構滿足特定應用的要求。
將生成式AI的大型語言模型(LLMs)分區部署在邊緣和中心/云基礎設施上,是AI部署的下一個前沿領域。這種混合方法提高了性能和響應速度,并優化了資源使用和安全性。然而,大多數企業甚至技術提供商都害怕這種架構,認為它太復雜、太昂貴,并且構建和部署速度太慢。
事實并非如此。不考慮這種選擇意味著你可能會錯過良好的商業價值。此外,幾年后像我這樣的人可能會出現并指出您在AI優化方面錯過了機會。您已經被警告過了。
參考鏈接:??https://www.infoworld.com/article/3715488/partitioning-an-llm-between-cloud-and-edge.html??
本文轉載自51CTO技術棧
