分布式AI推理的成功之道
隨著AI模型逐漸成為企業(yè)運(yùn)營的核心支柱,實(shí)時(shí)推理已成為推動(dòng)這一轉(zhuǎn)型的關(guān)鍵引擎。市場對即時(shí)、可決策的AI洞察需求激增,而AI代理——正迅速成為推理技術(shù)的前沿——即將迎來爆發(fā)式普及。德勤預(yù)測,到2027年,超半數(shù)采用生成式AI的企業(yè)將部署自主代理,標(biāo)志著行業(yè)臨界點(diǎn)的到來。為應(yīng)對這一趨勢,企業(yè)正在尋找跨多服務(wù)器、數(shù)據(jù)中心或地域部署AI模型的可擴(kuò)展高效方案,并將目光投向云端分布式AI部署。
延伸閱讀,點(diǎn)擊鏈接了解 Akamai Cloud Computing
在先前博客《分布式AI推理——下一代計(jì)算范式》中,我闡述了分布式AI推理的基礎(chǔ)知識(shí),以及如何借助Akamai Cloud獨(dú)特的高性能平臺(tái)以極低成本實(shí)現(xiàn)業(yè)務(wù)擴(kuò)展。本文將繼續(xù)探討分布式AI推理的相關(guān)概念,重點(diǎn)介紹如何通過分布式云架構(gòu)部署、編排和擴(kuò)展AI,并分析此類模型面臨的挑戰(zhàn)。
部署架構(gòu)
若您認(rèn)為全球范圍部署AI模型頗具復(fù)雜性,這一判斷完全正確。所幸現(xiàn)有大量工具和技術(shù)可支持AI從訓(xùn)練到部署、優(yōu)化及管理的全生命周期。選擇合適的解決方案組合需謹(jǐn)慎考量。Akamai Cloud與多家領(lǐng)先技術(shù)廠商合作,提供AI推理的基礎(chǔ)組件與繁榮生態(tài)。我們正構(gòu)建面向當(dāng)下、前瞻未來的AI推理云,通過就近用戶部署算力、數(shù)據(jù)存儲(chǔ)及管理解決方案,以及連接分布式站點(diǎn)模型的軟件,為您的業(yè)務(wù)保駕護(hù)航。
Akamai Cloud的AI推理整合了多項(xiàng)強(qiáng)大技術(shù),并依托合作伙伴構(gòu)建高性能生態(tài),包括:
- 模型服務(wù)——采用NVIDIA Dynamo(原Triton)和KServe等推理引擎,為應(yīng)用提供無縫AI模型訪問
- MLOps與編排——通過Kubeflow、NVIDIA Rapids和KubeSlice等工具支持?jǐn)?shù)據(jù)管道、模型生命周期管理及性能監(jiān)控
- 模型優(yōu)化——運(yùn)用NVIDIA TAO工具包和Kubeflow實(shí)現(xiàn)微調(diào)、剪枝、量化等優(yōu)化技術(shù)
- 數(shù)據(jù)管理——與VAST Data、NVIDIA Rapids和Milvus等數(shù)據(jù)平臺(tái)深度集成,為AI工作負(fù)載提供存儲(chǔ)、處理、傳輸及治理能力
- 邊緣計(jì)算——依托Akamai全球邊緣網(wǎng)絡(luò),聯(lián)合Fermyon和Avesha等伙伴提供輕量算力,顯著降低延遲
- AI網(wǎng)關(guān)——為開發(fā)者與AI代理提供統(tǒng)一端點(diǎn),優(yōu)化安全性、性能與韌性,所有這一切都構(gòu)建在Akamai Cloud的核心基礎(chǔ)設(shè)施之上,為分布式云環(huán)境中的AI模型提供算力、存儲(chǔ)、網(wǎng)絡(luò)、容器化及企業(yè)級安全保障。
需特別強(qiáng)調(diào)的是模型優(yōu)化這一關(guān)鍵過程。當(dāng)計(jì)算資源受限時(shí),通過剪枝(移除冗余參數(shù))和量化(降低精度同時(shí)保持推理準(zhǔn)確性)等技術(shù),可使模型更適應(yīng)邊緣計(jì)算場景。這有助于確保像AI代理這樣的自主系統(tǒng),即使在計(jì)算資源受限的情況下,也能提供快速的決策和響應(yīng)輸出。對于需要快速環(huán)境分析和迭代規(guī)劃的代理工作負(fù)載,您的AI工程師可能還會(huì)考慮采用像模型分片、動(dòng)態(tài)請求匹配和分割模型并行執(zhí)行多步驟推理等高級技術(shù),從而進(jìn)一步優(yōu)化延遲和價(jià)格表現(xiàn),提升分布式部署的效果。這些優(yōu)化可帶來:
- 模型體積最高縮減80%,顯著降低部署負(fù)擔(dān)減少計(jì)算成本與能耗,提升運(yùn)行效率
- 大幅提高推理速度,尤其利于延遲敏感型應(yīng)用
通過這些方法提高模型效率和性能,并將模型部署在靠近用戶和數(shù)據(jù)的分布式架構(gòu)上,能夠減少部署企業(yè)級AI應(yīng)用的成本和延遲障礙。
彈性擴(kuò)展
擴(kuò)展能力對AI推理的成功至關(guān)重要,特別是當(dāng)您開發(fā)的模型真正引發(fā)大眾興趣時(shí)。這意味著既要為流量高峰做好準(zhǔn)備,又要持續(xù)保持性能以滿足用戶期望。縱向擴(kuò)展(scale up)與橫向擴(kuò)展(scale out)都不可或缺。雖然在集中式數(shù)據(jù)中心增加算力是可行方案,但當(dāng)業(yè)務(wù)發(fā)展到特定階段,采用分布式推理模型進(jìn)行水平擴(kuò)展將顯現(xiàn)出更優(yōu)的性價(jià)比與能效比——對于以下延遲敏感型應(yīng)用場景尤為如此:
- 需亞秒級響應(yīng)的語音助手
- 基于IoT傳感器數(shù)據(jù)的自動(dòng)駕駛設(shè)備
- 需跨地域?qū)崟r(shí)決策的代理型AI應(yīng)用
這需要對AI應(yīng)用進(jìn)行精心的模塊化設(shè)計(jì)并確保其可移植性。在Akamai Cloud平臺(tái)通過Kubernetes編排引擎及其生態(tài)系統(tǒng),以及簡化可擴(kuò)展應(yīng)用部署的一站式平臺(tái)來實(shí)現(xiàn)這一目標(biāo)。模塊化設(shè)計(jì)與可移植特性不僅能擴(kuò)展AI應(yīng)用本身,更能同步擴(kuò)展其配套運(yùn)維體系。作為云原生計(jì)算的事實(shí)標(biāo)準(zhǔn),Kubernetes讓應(yīng)用移植變得前所未有的便捷。
通過采用開放的、無廠商鎖定的技術(shù)范式來提升跨混合云和多云環(huán)境的可移植性,無論模型實(shí)例部署在何處,您獲取最佳計(jì)算資源組合的成功率都將大幅提升。我們選擇以"Kubernetes容器化AI"作為擴(kuò)展解決方案的基石,正是基于這一戰(zhàn)略考量。
提升模型相關(guān)性
如同人類需要終身學(xué)習(xí)一樣,AI模型也需要通過更新數(shù)據(jù)集來優(yōu)化模型權(quán)重,從反饋中持續(xù)學(xué)習(xí),并根據(jù)環(huán)境變化調(diào)整上下文理解。在分布式模型中,新數(shù)據(jù)的持續(xù)訓(xùn)練會(huì)變得尤為復(fù)雜——因?yàn)榭缍鄠€(gè)節(jié)點(diǎn)或地域協(xié)調(diào)和同步更新,會(huì)帶來保持模型一致性的挑戰(zhàn)。
這需要從AI應(yīng)用/模型的分布式實(shí)例部署位置收集數(shù)據(jù),借助對象存儲(chǔ)和向量數(shù)據(jù)庫解決方案實(shí)現(xiàn)檢索增強(qiáng)生成(RAG),并通過機(jī)制將這些數(shù)據(jù)傳回中心模型進(jìn)行再訓(xùn)練或微調(diào)。Akamai Cloud的AI推理建立在強(qiáng)大的基礎(chǔ)數(shù)據(jù)管理能力之上,通過與領(lǐng)先的數(shù)據(jù)架構(gòu)平臺(tái)提供商建立關(guān)鍵合作伙伴關(guān)系,確保模型能夠基于當(dāng)前事件收集性能數(shù)據(jù)、領(lǐng)數(shù)據(jù)和更新數(shù)據(jù),為模型提供豐富、相關(guān)且實(shí)時(shí)的上下文,從而生成更準(zhǔn)確的輸出,同時(shí)降低幻覺風(fēng)險(xiǎn)。此外,這些數(shù)據(jù)還能反饋至中心模型,通過調(diào)整模型權(quán)重來提升全局模型推理的相關(guān)性。
Akamai Cloud能幫助您應(yīng)對企業(yè)級AI部署的幾大固有挑戰(zhàn):
- 成本效益 —— 雖然通過就近用戶部署推理(參見電子書)通常是選擇分布式AI推理模型的成本動(dòng)因,但進(jìn)一步選擇在可承受價(jià)格下提供可接受性能的計(jì)算選項(xiàng)還能實(shí)現(xiàn)額外成本優(yōu)化。Akamai通過提供性能與成本均衡的GPU方案,以及支持在商用CPU上實(shí)施模型優(yōu)化技術(shù),正在幫助解決這一成本難題。
- 能耗與可持續(xù)性 —— AI推理工作負(fù)載可能消耗巨大電力,數(shù)據(jù)中心和AI加速器運(yùn)行模型時(shí)會(huì)產(chǎn)生大量能耗。這不僅加劇全球碳排放,也擴(kuò)大組織的碳足跡。隨著AI應(yīng)用規(guī)模擴(kuò)大,推理的能耗需求將超過訓(xùn)練階段,帶來更多可持續(xù)性挑戰(zhàn)。分布式AI推理通過以下策略支持減排:借助本地化推理減少數(shù)據(jù)傳輸、通過選擇性使用AI加速器優(yōu)化低功耗處理模型、動(dòng)態(tài)擴(kuò)展AI應(yīng)用規(guī)模,以及利用綠色能源數(shù)據(jù)中心。
- 聯(lián)邦學(xué)習(xí) —— 這涉及前文提到的挑戰(zhàn):管理分散在分布式云環(huán)境中不同AI模型實(shí)例的學(xué)習(xí)速率和進(jìn)化過程。關(guān)鍵是要采用能保持各模型版本與中心學(xué)習(xí)監(jiān)管同步的方法,包括先在本地重新校準(zhǔn)模型權(quán)重,再通過聯(lián)邦學(xué)習(xí)機(jī)制跨所有模型實(shí)例實(shí)現(xiàn)同步。
- 模型安全防護(hù) —— 保護(hù)AI模型免受網(wǎng)絡(luò)攻擊(包括新型威脅、數(shù)據(jù)泄露、合規(guī)風(fēng)險(xiǎn)及對抗攻擊)對企業(yè)級AI應(yīng)用至關(guān)重要,可避免模型準(zhǔn)確性或安全性受損,乃至服務(wù)完全中斷。必須通過實(shí)時(shí)原生AI威脅檢測、策略執(zhí)行和自適應(yīng)安全措施,同時(shí)保護(hù)入站AI查詢和出站AI響應(yīng),防御提示詞注入、敏感數(shù)據(jù)泄露、對抗性攻擊及針對AI的DoS攻擊。模型安全對企業(yè)至關(guān)重要,雖然這不屬于本文討論范圍,但您可以通過此處了解Akamai的AI防火墻方案。
塑造AI未來
在Akamai,我們堅(jiān)信分布式AI推理是構(gòu)建可擴(kuò)展、高性能AI應(yīng)用
的基石。Akamai Cloud的基礎(chǔ)架構(gòu)專為企業(yè)級AI應(yīng)用部署而設(shè)計(jì),既能簡化實(shí)施流程,又能以業(yè)務(wù)所需的響應(yīng)速度和可靠性,隨時(shí)隨地為您提供可立即支持決策的智能洞察。通過攜手領(lǐng)先技術(shù)廠商將一流軟件集成至我們的AI推理技術(shù)棧,Akamai Cloud旨在解決AI規(guī)模化挑戰(zhàn),提供實(shí)時(shí)執(zhí)行環(huán)境,使AI代理能夠高效編排任務(wù)、優(yōu)化工作流,并實(shí)現(xiàn)大規(guī)模自主決策。
采用正確的優(yōu)化策略對AI應(yīng)用進(jìn)行調(diào)優(yōu),是實(shí)現(xiàn)性能、成本與可持續(xù)性平衡的關(guān)鍵,同時(shí)確保輸出高保真度的推理結(jié)果。持續(xù)評估和改進(jìn)模型的反饋循環(huán),需要以周密規(guī)劃的數(shù)據(jù)戰(zhàn)略作為基礎(chǔ),這是保持AI應(yīng)用與時(shí)俱進(jìn)且準(zhǔn)確可靠的核心支撐。
我們?yōu)榭蛻舢?dāng)前在Akamai Cloud上構(gòu)建的各類AI應(yīng)用感到振奮,更期待見證您即將創(chuàng)造的未來。
想深入了解AI推理性能基準(zhǔn)測試?歡迎閱讀我們的白皮書解鎖更多信息。
—————————————————————————————————————————————————
如您所在的企業(yè)也在考慮采購云服務(wù)或進(jìn)行云遷移,
點(diǎn)擊鏈接了解Akamai Linode的解決方案