成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

破解聯邦學習中的辛普森悖論,浙大提出反事實學習新框架FedCFA

人工智能
隨著機器學習技術的發展,隱私保護和分布式優化的需求日益增長。聯邦學習作為一種分布式機器學習技術,允許多個客戶端在不共享數據的情況下協同訓練模型,從而有效地保護了用戶隱私。

江中華,浙江大學軟件學院碩士生二年級,導師為張圣宇老師。研究方向為大小模型端云協同計算。張圣宇,浙江大學平臺「百人計劃」研究員。研究方向包括大小模型端云協同計算,多媒體分析與數據挖掘。

隨著機器學習技術的發展,隱私保護和分布式優化的需求日益增長。聯邦學習作為一種分布式機器學習技術,允許多個客戶端在不共享數據的情況下協同訓練模型,從而有效地保護了用戶隱私。然而,每個客戶端的數據可能各不相同,有的數據量大,有的數據量小;有的數據特征豐富,有的數據特征單一。這種數據的異質性和不平衡性(Non-IID)會導致一個問題:本地訓練的客戶模型忽視了全局數據中明顯的更廣泛的模式,聚合的全局模型可能無法準確反映所有客戶端的數據分布,甚至可能出現「辛普森悖論」—— 多端各自數據分布趨勢相近,但與多端全局數據分布趨勢相悖。

為了解決這一問題,來自浙江大學人工智能研究所的研究團隊提出了 FedCFA,一個基于反事實學習的新型聯邦學習框架。

FedCFA 引入了端側反事實學習機制,通過在客戶端本地生成與全局平均數據對齊的反事實樣本,緩解端側數據中存在的偏見,從而有效避免模型學習到錯誤的特征 - 標簽關聯。該研究已被 AAAI 2025 接收。


圖片

  • 論文標題:FedCFA: Alleviating Simpson’s Paradox in Model Aggregation with Counterfactual Federated Learning
  • 論文鏈接:https://arxiv.org/abs/2412.18904
  • 項目地址:https://github.com/hua-zi/FedCFA

辛普森悖論

辛普森悖論(Simpson's Paradox)是一種統計現象。簡單來說,當你把數據分成幾個子組時,某些趨勢或關系在每個子組中表現出一致的方向,但在整個數據集中卻出現了相反的趨勢。

圖片

圖 1:辛普森悖論。在全局數據集上觀察到的趨勢在子集上消失 / 逆轉,聚合的全局模型無法準確反映全局數據分布

在聯邦學習中,辛普森悖論可能會導致全局模型無法準確捕捉到數據的真實分布。例如,某些客戶端的數據中存在特定的特征 - 標簽關聯(如顏色與動物種類的關系),而這些關聯可能在全局數據中并不存在。因此,直接將本地模型匯聚成全局模型可能會引入錯誤的學習結果,影響模型的準確性。

如圖 2 所示。考慮一個用于對貓和狗圖像進行分類的聯邦學習系統,涉及具有不同數據集的兩個客戶端。客戶端 i 的數據集主要包括白貓和黑狗的圖像,客戶端 j 的數據集包括淺灰色貓和棕色狗的圖像。對于每個客戶端而言,數據集揭示了類似的趨勢:淺色動物被歸類為「貓」,而深色動物被歸類為「狗」。這導致聚合的全局模型傾向于將顏色與類別標簽相關聯并為顏色特征分配更高的權重。然而,全局數據分布引入了許多不同顏色的貓和狗的圖像(例如黑貓和白狗),與聚合的全局模型相矛盾。在全局數據上訓練的模型可以很容易地發現動物顏色與特定分類無關,從而減少顏色特征的權重。

圖片

圖 2:FedCFA 可以生成客戶端本地不存在的反事實樣本,防止模型學習到不正確的特征 - 標簽關聯。

反事實學習

反事實(Counterfactual)就像是「如果事情發生了另一種情況,結果會如何?」 的假設性推理。在機器學習中,反事實學習通過生成與現實數據不同的虛擬樣本,來探索不同條件下的模型行為。這些虛擬樣本可以幫助模型更好地理解數據中的因果關系,避免學習到虛假的關聯。

反事實學習的核心思想是通過對現有數據進行干預,生成新的樣本,這些樣本反映了某種假設條件下的情況。例如,在圖像分類任務中,我們可以改變圖像中的某些特征(如顏色、形狀等),生成與原圖不同的反事實樣本。通過讓模型學習這些反事實樣本,可以提高模型對真實數據分布的理解,避免過擬合局部數據的特點。

反事實學習廣泛應用于推薦系統、醫療診斷、金融風險評估等領域。在聯邦學習中,反事實學習可以幫助緩解辛普森悖論帶來的問題,使全局模型更準確地反映整體數據的真實分布。

FedCFA 框架簡介

為了解決聯邦學習中的辛普森悖論問題,FedCFA 框架通過在客戶端生成與全局平均數據對齊的反事實樣本,使得本地數據分布更接近全局分布,從而有效避免了錯誤的特征 - 標簽關聯。

如圖 2 所示,通過反事實變換生成的反事實樣本使局部模型能夠準確掌握特征 - 標簽關聯,避免局部數據分布與全局數據分布相矛盾,從而緩解模型聚合中的辛普森悖論。從技術上講,FedCFA 的反事實模塊,選擇性地替換關鍵特征,將全局平均數據集成到本地數據中,并構建用于模型學習的反事實正 / 負樣本。具體來說,給定本地數據,FedCFA 識別可有可無 / 不可或缺的特征因子,通過相應地替換這些特征來執行反事實轉換以獲得正 / 負樣本。通過對更接近全局數據分布的反事實樣本進行對比學習,客戶端本地模型可以有效地學習全局數據分布。然而,反事實轉換面臨著從數據中提取獨立可控特征的挑戰。一個特征可以包含多種類型的信息,例如動物圖像的一個像素可以攜帶顏色和形狀信息。為了提高反事實樣本的質量,需要確保提取的特征因子只包含單一信息。因此,FedCFA 引入因子去相關損失,直接懲罰因子之間的相關系數,以實現特征之間的解耦。

圖片

全局平均數據集的構建

為了構建全局平均數據集,FedCFA 利用了中心極限定理(Central Limit Theorem, CLT)。根據中心極限定理,若從原數據集中隨機抽取的大小為 n 的子集平均值記為圖片,則當 n 足夠大時,圖片的分布趨于正態分布,其均值為 μ,方差圖片,即:圖片,其中 μ 和圖片是原始數據集的期望和方差。

當 n 較小時,圖片能更精細地捕捉數據集的局部特征與變化,特別是在保留數據分布尾部和異常值附近的細節方面表現突出。相反,隨著 n 的增大,圖片的穩定性顯著提升,其方差明顯減小,從而使其作為總體均值 ?? 的估計更為穩健可靠,對異常值的敏感度大幅降低。此外,在聯邦學習等分布式計算場景中,為了實現通信成本的有效控制,選擇較大的 n 作為樣本量被視為一種優化策略。

基于上述分析,FedCFA 按照以下步驟構建一個大小為 B 的全局平均數據集,以此近似全局數據分布:

1.本地平均數據集計算:每個客戶端將其本地數據集隨機劃分為 B 個大小為圖片的子集圖片,其中圖片為客戶端數據集大小。對于每個子集,計算其平均值圖片。由此,客戶端能夠生成本地平均數據集圖片以近似客戶端原始數據的分布。

2.全局平均數據集計算:服務器端則負責聚合來自多個客戶端的本地平均數據,并采用相同的方法計算出一個大小為 B 的全局平均數據集圖片,該數據集近似了全局數據的分布。對于標簽 Y,FedCFA 采取相同的計算策略,生成其對應的全局平均數據標簽圖片。最終得到完整的全局平均數據集圖片

反事實變換模塊

圖片

圖 3:FedCFA 中的本地模型訓練流程

FedCFA 中的本地模型訓練流程如圖 3 所示。反事實變換模塊的主要任務是在端側生成與全局數據分布對齊的反事實樣本:

  • 特征提取:使用編碼器(Encoder)從原始數據中提取特征因子圖片
  • 選擇關鍵特征:計算每個特征在解碼器(Decoder)輸出層的梯度,選擇梯度小 / 大的 topk 個特征因子作為可替換的因子,使用圖片將選定的小 / 大梯度因子設置為零,以保留需要的因子
  • 生成反事實樣本:用 Encoder 提取的全局平均數據特征替換可替換的特征因子,得到反事實正 / 負樣本,對于正樣本,標簽不會改變。對于負樣本,使用加權平均值來生成反事實標簽:

圖片

因子去相關損失

同一像素可能包含多個數據特征。例如,在動物圖像中,一個像素可以同時攜帶顏色和外觀信息。為了提高反事實樣本的質量,FedCFA 引入了因子去相關(Factor Decorrelation, FDC)損失,用于減少提取出的特征因子之間的相關性,確保每個特征因子只攜帶單一信息。具體來說,FDC 損失通過計算每對特征之間的皮爾遜相關系數(Pearson Correlation Coefficient)來衡量特征的相關性,并將其作為正則化項加入到總損失函數中。

給定一批數據,用圖片來表示第 i 個樣本的所有因子。圖片表示第 i 個樣本的第 j 個因子。將同一批次中每個樣本的相同指標 j 的因子視為一組變量圖片。最后,使用每對變量的 Pearson 相關系數絕對值的平均值作為 FDC 損失:

圖片

其中 Cov (?) 是協方差計算函數,Var (?) 是方差計算函數。最終的總損失為:

圖片

實驗結果

實驗采用兩個指標:500 輪后的全局模型精度 和 達到目標精度所需的通信輪數,來評估 FedCFA 的性能。

圖片

圖片

圖片

實驗基于 MNIST 構建了一個具有辛普森悖論的數據集。具體來說,給 1 和 7 兩類圖像進行上色,并按顏色深淺劃分給 5 個客戶端。每個客戶端的數據中,數字 1 的顏色都比數字 7 的顏色深。隨后預訓練一個準確率 96% 的 MLP 模型,作為聯邦學習模型初始模型。讓 FedCFA 與 FedAvg,FedMix 兩個 baseline 作為對比,在該數據集上進行訓練。如圖 5 所示,訓練過程中,FedAvg 和 FedMix 均受辛普森悖論的影響,全局模型準確率下降。而 FedCFA 通過反事實轉換,可以破壞數據中的虛假的特征 - 標簽關聯,生成反事實樣本使得本地數據分布靠近全局數據分布,模型準確率提升。

圖片

圖 4: 具有辛普森悖論的數據集

圖片

圖 5: 在辛普森悖論數據集上的全局模型 top-1 準確率

消融實驗

圖片


圖片

圖 6:因子去相關 (FDC) 損失的消融實驗

責任編輯:姜華 來源: 機器之心
相關推薦

2025-04-03 09:27:44

2011-07-05 17:45:07

PHP框架

2022-11-03 14:13:52

強化學習方法

2024-08-06 11:30:00

2014-06-26 09:41:13

數據分析

2022-09-12 20:31:54

隱私計算AI數據

2022-05-19 12:04:07

隱私保護攻擊威脅

2019-03-08 09:28:42

Google 開源技術

2025-04-01 09:32:00

模型訓練AI

2011-07-15 17:05:14

2022-07-06 14:43:21

決策樹算法

2023-02-08 15:32:56

新模塊操作系統

2023-03-15 16:16:07

鴻蒙Server端

2024-12-23 14:10:00

AI模型數據

2017-06-10 16:19:22

人工智能智能體強化學習

2020-06-30 09:54:30

框架AI開發

2023-02-26 14:17:44

2022-05-05 15:02:26

機器學習人工智能開源

2024-01-18 12:37:31

SOTA3D方法
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品99久久久久久久vr | 欧洲亚洲一区 | 国产高清美女一级a毛片久久w | 久久躁日日躁aaaaxxxx | 成人国产精品久久 | 毛片av免费看 | 91精品观看 | 久热久草 | 国产网站在线免费观看 | 免费精品 | 91玖玖 | 国产视频一区二区在线观看 | 福利精品| 亚洲精品18 | 草久久免费视频 | 视频一二区 | 成人国产一区二区三区精品麻豆 | 红桃视频一区二区三区免费 | 青青草华人在线视频 | 国产成人一区二区三区 | 污片在线观看 | 日韩久久精品电影 | 97av视频| 激情一区二区三区 | 日韩欧美国产一区二区三区 | 一区二区三区国产精品 | 国产午夜精品一区二区三区四区 | 国产成人jvid在线播放 | 国产午夜精品理论片a大结局 | 成年免费大片黄在线观看岛国 | 性色视频在线观看 | 中文字幕在线看 | 国产成人在线播放 | 亚洲第一区久久 | 色综网 | 欧美一区二区免费电影 | 国产日本精品视频 | 四虎网站在线观看 | 国产精品美女久久久久aⅴ国产馆 | 日韩精品免费视频 | 一级做受毛片免费大片 |