淺談聯邦學習中的隱私保護
背 景
隨著人工智技術的飛速發展,重視數據隱私與安全已經成為國家的大事件。在數據孤島現象與數據融合相矛盾環境下,聯邦學習(federated learning,FL)作為一種新型的分布式機器學習技術應運而生,聯邦學習旨在通過安全交換不可逆的信息(如模型參數或梯度更新),使得多方數據持有者(如手機、物聯網設備等)協同訓練模型而不分享數據。盡管聯邦學習避免將數據直接暴露給第三方,對數據具有天然的保護作用,但其中依然存在大量的隱私泄露風險。本文為讀者介紹了聯邦學習的概念、存在的3類隱私泄漏風險和4種主要的隱私保護技術。
1.聯邦學習
定義:聯邦學習實際上是一種加密的分布式機器學習技術,聯邦學習可以跨越多種設備,參與各方可以在不披露底層數據和底層數據加密(混淆)形態的前提下聯合構建模型。通過加密機制實現各企業的數據在不出本地情況下進行參數交換,實現不違反數據隱私法而構建共有模型。
分類:按照數據和用戶呈現的特點將聯邦學習分為三類:橫向聯邦學習、縱向聯邦學習和遷移聯邦學習。具體介紹可參考[1-2]。
典型架構:客戶-服務器架構和端到端架構。前者通過中心服務器進行參數傳輸,后者客戶端之間直接進行參數傳輸。
訓練過程:如圖1所示,FL主要包含以下三個步驟。
Step1:模型選擇(啟動全局模型和初始參數,并于FL環境當中所有客戶端共享);
Step2:局部模型訓練(客戶端初始ML模型,用個人訓練數據訓練模型);
Step3:本地模型聚合(客戶將局部模型更新發送到中心服務器,進行聚合和訓練全局模型,全局模型將下發到每個客戶端,進行多輪迭代的模型訓練)。
圖 1 聯邦學習模型訓練架構
2.FL隱私泄漏風險
盡管聯邦學習不直接進行數據交換,相比傳統的機器學習具有更高的隱私保障,但本身并沒有提供全面充分的隱私保護,依然面臨著信息泄漏的威脅。因為參與者可以根據上傳的參數推測出其他參與者的訓練數據,因此聯邦學習中的隱私風險主要來自不同類別的推理攻擊,主要包括成員推理攻擊、無意的數據泄漏&推理重建和基于GANs的推理攻擊[3]。
2.1 成員推理攻擊
成員推理攻擊通過對機器學習模型進行攻擊,攻擊者可以推斷出模型訓練集的信息,結構,該攻擊給機器學習帶來了嚴重的隱私威脅。如圖2所示,原始的數據集訓練的模型在應用平臺上運行,攻擊者冒充用戶去訪問目標模型,獲得一定的信息和敵手知識來構建攻擊模型用于推理任意給定數據是否是目標模型的訓練成員[4]。
圖2 聯邦學習下的成員推理
2.2 無意的數據泄漏&推理重建
攻擊者利用中央服務器無意的數據泄漏漏洞,獲取客戶端的更新的數據或梯度信息,并通過推理攻擊成功重建其他客戶端的數據。這是一個相似的攻擊,對于給定的訓練模型,判斷其訓練集上是否包含特定屬性的數據點,該屬性不一定和訓練任務相關。例如使用LFW數據集訓練一個識別性別的模型時,推理重建能夠發現樣本的其他特征,如樣本的種族,是否戴眼鏡等信息,這將帶來隱私泄漏的風險[5]。
2.3 GANs推理攻擊
GANs是近些年大數據領域廣受歡迎的生成對抗網絡,同樣也適用于基于聯邦學習的方法。聯邦學習客戶端當中存在一些利用本地的舊數據作為訓練模型的貢獻,由于聯邦學習中僅參數的更新很難評估每個客戶端的貢獻和信譽。如圖3所示,該攻擊利用了學習過程的實時性,并允許對手訓練一個通用的對抗網絡(GAN),以生成隱私的目標訓練集的原型樣本,推理的圖像與原圖像幾乎相同,因為GAN旨在生成和訓練集分布相同的樣本,當分類樣本互相相似時(人臉識別),這種攻擊非常大[5]。
圖3 聯邦學習下的推理重構
3.FL隱私保護
通過以上分析,聯邦學習當中存在很多隱私泄漏的風險,有攻就有防,科研人員同樣也研究出較多增強聯邦學習隱私保護的技術。聯邦學習當中增強隱私保護和減少威脅的方法,主要包含以下四種方法:安全多方計算(Secure multi-party computation)、差分隱私
(Differential privacy)、VerifyNet和對抗訓練(Adversarial training)[3]
3.1安全多方計算(sMPC)
sMPC采取密碼學的方法保護客戶端的參數更新或梯度。如圖4 所示,聯邦學習種sMPC與傳統的算法應用場景不同,聯邦學習算法當中sMPC只需要對參數進行加密,無需對大量的用戶數據進行加密,顯著提高了sMPC的效率,使得sMPC成為聯邦學習環境當中一個較好的選擇。
圖4 聯邦學習下的sMPC
3.2 差分隱私(DP)
DP通過添加噪聲來擾動原本特征清晰的數據,使得單條數據失去其獨特性,隱藏在大量數據當中,防止敏感數據泄漏,DP仍能夠使得數據具備原有的分布式特點。聯邦學習當中,為了避免數據的反向檢索,對客戶端上傳的參數進行差分隱私,這樣可能會給上傳的參數帶來不確定性,影響模型的訓練效果。
3.3 VerifyNet
VerifyNet是一個隱私保護和可信驗證的聯邦學習框架。VerifyNet的雙隱蔽協議保證用戶在聯邦學習過程中局部梯度的機密性,另外中心服務器需要向每個用戶提供關于聚合結果的正確性證明。在VerifyNet當中,攻擊者很難偽造證據來欺騙其他用戶,除非能夠解決模型中采用的np硬問題。此外VerifyNet還支持用戶在訓練過程中退出,發現威脅迅速回退,多方面保護用戶的隱私安全。
3.4 對抗訓練(AT)
對抗訓練是增強神經網絡魯棒性的重要方式,是一種主動防御技術。在聯邦學習對抗訓練過程中,樣本當中會混合一些微小的擾動(可能導致誤分類),然后使得神經網絡適應這種變換,因此,最終生成的聯邦學習的全局模型對已知的對抗樣本具有魯棒性。
4.總 結
聯邦學習技術是隱私保護下機器學習的可實現路徑和“數據孤島問題”的可解決方案,適用于B2B和B2C業務,具有廣闊的應用場景。聯邦學習的隱私安全也是目前人們關注的熱點,本文介紹了聯邦學習的概念,存在推理攻擊的隱私泄漏風險以及主要的隱私保護技術,包括安全多方計算、差分隱私、VerifyNet和對抗訓練,以供讀者參考。
參考文獻
[1] 劉藝璇, 陳紅, 劉宇涵, & 李翠平. (2021). 聯邦學習中的隱私保護技術. 軟件學報, 33(3), 0-0.
[2] Yang, Q., Liu, Y., Chen, T., & Tong, Y. (2019). Federated machine learning: Concept and applications. ACM Transactions on Intelligent Systems and Technology (TIST), 10(2), 1-19.
[3] Mothukuri, V., Parizi, R. M., Pouriyeh, S., Huang, Y., Dehghantanha, A., & Srivastava, G. (2021). A survey on security and privacy of federated learning. Future Generation Computer Systems, 115, 619-640.
[4] 高婷. (2022). 機器學習成員推理攻擊研究進展與挑戰. Operations Research and Fuzziology, 12, 1.
[5] AI大本營. (2022).聯邦學習的隱憂:來自梯度的深度泄露, https://t.cj.sina.com.cn/articles /view/6080368657/16a6b101101900wgmv