譯者 | 朱先忠
審校 | 重樓
傳統云計算依賴集中式數據訓練模型,但邊緣計算的普及催生了新范式——去中心化機器學習。其核心代表——聯邦學習正在顛覆傳統流程。本文將對聯邦學習概念及其三個關鍵技術展開討論。
簡介——打破云障礙
多年來,云計算一直是機器學習的主導范式。海量數據圖表被上傳到中心化服務器,經過超強GPU的處理,最終轉化為能夠提供建議、預測和推理的模型。
但是,如果不是“只有一條路”呢?
我們生活在一個數十億設備(智能手機、智能傳感器等)可以在本地生成和處理數據的世界。這被稱為邊緣計算或普適計算,它為引入一個強大的新范式——去中心化機器學習(ML)——提供了絕佳的機會。在這種范式中,多個模型可以在分布式網絡和計算模式上協同訓練,而無需將數據聚合到一個站點。
聯邦學習是本地協作學習這一新領域的前沿。這種學習過程允許多個客戶端(手機、醫院、汽車等)使用同一模型進行訓練,同時保持數據本地化。由于隱私法規、帶寬限制和安全問題導致無法訪問集中式訓練,這種方法非常有必要。
本文將探討不斷發展的去中心化人工智能領域:聯邦學習的工作原理、其前景和問題所在,以及為什么它可能預示著人工智能中道德和可擴展隱私流程的新興未來。
什么是聯邦學習?為什么它很重要?
聯邦學習顛覆了傳統的機器學習工作流程。我們不再將數據發送到服務器,而是將模型發送到數據。
每個客戶端設備都會獲得一份模型副本,使用該模型對客戶端數據進行訓練,并將模型更新提交回服務器(通常是全局更新的梯度或模型權重變化)。服務器收集并匯總這些更新,最常見的方式是使用聯邦平均或類似的流程,然后將改進后的模型版本分發給所有參與者。
聯邦學習架構有很多優點:
- 隱私:原始數據永遠不會離開設備,最大限度地減少泄露或泄露的風險。
- 延遲:設備上的訓練和推理自然能夠實現更快的離線決策。
- 帶寬:僅傳輸模型的微小更新,而不是數GB的原始數據!
- 監管:在醫療保健或金融等存在數據駐留法律的州,集中存儲是不切實際的,但點對點學習仍然可以安全地進行。聯邦學習最初在Google的Gboard(適用于Android設備的預測鍵盤)上進行試點,后來開始應用于從預測鍵盤到醫學研究再到自動駕駛汽車車隊等各個領域。
不僅僅是服務器:去中心化聯邦學習
雖然聯邦學習在消除數據中央流風險方面做得很好,但聯邦學習仍然幾乎總是依賴中央服務器來協調訓練,從而引入單點故障和控制,掩蓋了分散框架的好處。
現在,通過點對點(P2P)網絡、區塊鏈共識機制和去中心化聚合協議設計,研究人員開始設計無需中央協調器的系統!每個節點都可以平等地參與模型更新,共識算法有助于確保完整性和公平性。
OpenMined和Flower是嘗試去中心化聯邦學習的開源平臺。
“群體學習”結合區塊鏈和邊緣設備,在無需集中治理的情況下,跨醫院同步醫療模型。
差異隱私、安全多方計算(SMPC)和同態加密位于頂層,增加了安全性。
這一切會帶來什么結果?未來,模型的構建將更加民主,不再有任何一個組織能夠控制數據流或擁有模型。
挑戰:并非全部同步
盡管前景光明,但去中心化機器學習也面臨著技術和后勤挑戰,因此我們必須意識到其中涉及的復雜性。
- 模型漂移:如果沒有集中控制,在不同地方訓練的模型可能會分離,從而降低泛化能力。
- 計算限制:邊緣設備面臨有限的內存、功率和處理限制。
- 通信開銷:雖然簡單,但即使是小的模型更新也會在規模上變得昂貴,尤其是在不可靠的網絡上。
- 安全風險:如果沒有實施強加密和驗證,惡意節點可能會被用來毒害更新。還有一個生成信任問題。在一個完全開放的系統中,如何知道哪些更新是誠實的?基于區塊鏈的審計和聲譽系統的實驗正在探索中,但尚未得到廣泛部署。
用例:當去中心化有意義時
即使面臨上述挑戰,分散式機器學習也特別適合特定領域,例如:
- 醫療保健:醫院可以共享和協作構建診斷模型,而無需共享敏感的患者信息。
- 金融服務:銀行和金融科技公司可以在不違反隱私法的情況下分享見解。
- 自動駕駛汽車:每輛汽車都從其周圍環境中學習,同時為主集體駕駛模型做出貢獻,而無需提交原始影片片段。
- 智慧城市:物聯網智能設備可以根據當地情況進行學習,同時將匯總的情報發送回城市規劃者。
這些例子有一個共同的主題:敏感的、分布式的數據不能(或不應該)集中化。
人工智能的未來:更加本地化、更加私密、更具彈性
隨著隱私法規日益嚴格,云服務價格不斷上漲,去中心化機器學習正成為正確的應對之策。去中心化機器學習讓原創機構能夠保留對其數據的控制權,同時增強其AI流程的彈性,并為符合倫理道德的AI提供共生解決方案。
愿景很明確:世界上數十億臺設備都在不斷地集體學習,不是通過放棄數據,而是通過跨越無形的界限共同努力。
這一未來并非缺乏細節,需要在邊緣計算、隱私保護算法和全球合作方面持續創新。此外,還必須實現文化上的轉變,倡導去中心化機器學習不僅僅是對人工智能的技術反思,更是思維方式上的必要轉變。
結論:從集中智能走向集體智能
去中心化機器學習的意義遠不止提升帶寬或維護隱私,它還在于改變人工智能系統的權力結構。這些模型是誰的?誰能從這些洞察中受益?又由誰來決定什么是智能,以及智能的未來發展方向?
在擁有數十億聯網設備的世界中,分散式人工智能可以幫助我們從集中式智能轉變為集體智能,同時又不會犧牲信任、隱私或自主權。
云計算并沒有消亡,但它正在迅速失去其作為下一代機器學習中心的地位。
譯者介紹
朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:Decentralized ML: Developing federated AI without a central cloud,作者:Tosin Clement