成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

聯(lián)邦學習——突破隱私障礙,釋放數(shù)據(jù)價值

人工智能 機器學習
聯(lián)邦學習是一種帶有隱私保護、安全加密技術的分布式機器學習框架,旨在讓分散的各參與方在不向其他參與者披露隱私數(shù)據(jù)的前提下,協(xié)作進行模型訓練。

一、聯(lián)邦學習產(chǎn)生的背景

傳統(tǒng)的機器學習方法需要將數(shù)據(jù)集中在一個機器或數(shù)據(jù)中心進行訓練,但隨著移動互聯(lián)網(wǎng)、大數(shù)據(jù)等科技的崛起,個人數(shù)據(jù)分布在各種機構(gòu),包括政府機構(gòu)、醫(yī)療機構(gòu)、保險機構(gòu)以及各個互聯(lián)網(wǎng)巨頭的平臺等。數(shù)據(jù)在不同的管理機構(gòu)之間流通往往充滿泄漏的風險,另外,近年來數(shù)據(jù)的隱私權越來越受重視,涉及個人隱私的數(shù)據(jù)很難有效共享,要將所需要的數(shù)據(jù)集中在一起訓練非常困難,導致許多領域存在著數(shù)據(jù)孤島問題。

其實在國外大數(shù)據(jù)應用也同樣面臨這個挑戰(zhàn)。早在2016年,Google就提出了聯(lián)邦學習(Federated Learning)的概念,是指多源數(shù)據(jù)不需要離開自己的設備,而是分別在自己的設備訓練模型,并通過特定的加密機制在云上建立一個共享模型的機制更新模型,通過聯(lián)邦學習,所有的訓練數(shù)據(jù)都仍然保留在各自的設備上,而最終訓練出來的模型又能夠達到想要的效果。

二、什么是聯(lián)邦學習?

假設要訓練某種疾病的輔助診斷模型,為了診斷更加準確,我們需要有更大的樣本,因此需要用到三家醫(yī)院A、B和C的數(shù)據(jù),這些醫(yī)院有不同的患者,有相同類型的患者數(shù)據(jù)(例如:CT、癥狀描述、病史等),醫(yī)院為了保護患者隱私和他們各自的病例數(shù)據(jù)安全,沒辦法全部共享。在數(shù)據(jù)準備不充分的狀態(tài)下其實很難建立一個效果良好的模型。

而聯(lián)邦學習的目的,就是希望實現(xiàn)各個醫(yī)院用自己的數(shù)據(jù)來訓練模型,并通過加密的機制建立一個共享的模型,并進行模型的更新,這樣做不僅保護了院方數(shù)據(jù)安全和患者隱私,還降低大量集中數(shù)據(jù)傳輸?shù)某杀尽?/p>

聯(lián)邦學習是一種帶有隱私保護、安全加密技術的分布式機器學習框架,旨在讓分散的各參與方在不向其他參與者披露隱私數(shù)據(jù)的前提下,協(xié)作進行模型訓練。

三、聯(lián)邦學習訓練過程

經(jīng)典聯(lián)邦學習框架的訓練過程可以簡單概括為以下幾個步驟:

  • 協(xié)調(diào)方建立基本模型;
  • 將模型的基本結(jié)構(gòu)與參數(shù)發(fā)送各參與方;
  • 各參與方利用本地數(shù)據(jù)進行模型訓練
  • 各方將模型參數(shù)結(jié)果發(fā)給協(xié)調(diào)方;
  • 協(xié)調(diào)方匯總各參與方的模型,構(gòu)建更精準的全局模型;
  • 將全局參數(shù)發(fā)給各參與方以提升模型性能和效果。

四、聯(lián)邦學習核心技術

聯(lián)邦學習框架包含多方面的技術,比如:

  • 機器學習與模型訓練;
  • 參數(shù)整合的算法;
  • 各方數(shù)據(jù)傳輸通信技術;
  • 隱私保護技術;

此外,在一些聯(lián)邦學習框架中還借鑒了區(qū)塊鏈思路,使用激勵機制,數(shù)據(jù)持有方均可參與,收益具有普遍性。

值得一提的是隱私保護技術,如何在數(shù)據(jù)傳輸中保護數(shù)據(jù)的隱私安全,一直是密碼學領域的一大研究熱點。

五、聯(lián)邦學習隱私保護

聯(lián)邦學習當中增強隱私保護和減少威脅的方法,主要包含以下四種:

  • Secure multi-party computation(MPC多方安全計算);
  • Differential privacy(差分隱私);
  • VerifyNet;
  • Adversarial training(對抗訓練);

1.多方安全計算

多方安全計算(Secure Multi-Party Computation,SMPC)用于解決一組互不信任的參與方各自持有秘密數(shù)據(jù),協(xié)同計算一個既定函數(shù)的問題。安全多方計算在保證參與方獲得正確計算結(jié)果的同時,無法獲得計算結(jié)果之外的任何信息。在整個計算過程中,參與方對其所擁有的數(shù)據(jù)始終擁有絕對的控制權。

例如,在一個分布式網(wǎng)絡中,有n個互不信任的參與方P1,P2,…,Pn,每個參與方Pi持有秘密數(shù)據(jù)Xi(i=1,2,3,…,n)。這n個參與方協(xié)同執(zhí)行既定函數(shù),f(x1,x2,…,xn) -> (y1,y2,…,yn),其中yi為參與方Pi得到的輸出結(jié)果。任意參與方Pi除yi之外無法獲得關于其他參與方Pj(i !=j)的任何輸入信息。如果y1= y2 = … =yn,則可以簡單表示為f:(x1,x2,…,xn) -> y。如下圖所示:

2.差分隱私

差分隱私是為了對抗差分攻擊而引入的一種隱私保護的方案。通過添加噪聲來擾動原本特征清晰的數(shù)據(jù),使得單條數(shù)據(jù)失去其獨特性,隱藏在大量數(shù)據(jù)當中,防止敏感數(shù)據(jù)泄漏,DP仍能夠使得數(shù)據(jù)具備原有的分布式特點。聯(lián)邦學習當中,為了避免數(shù)據(jù)的反向檢索,對客戶端上傳的參數(shù)進行差分隱私,這樣可能會給上傳的參數(shù)帶來不確定性,影響模型的訓練效果。

例如:有一個包含“非典”疾病信息的數(shù)據(jù)庫。我們要研究分析這種疾病,但是又怕泄漏個人隱私,有一個方法是把姓名、身份證號從數(shù)據(jù)庫中脫敏,但是如果這個城市只有少數(shù)這種疾病的病人,如果有人知道一個人在數(shù)據(jù)庫中,這可能會泄漏這個人有“非典”和他的治理情況。我們可以增加一些具有類似該疾病信息的噪音樣本書籍,以防止個人信息被識別出來。

3.VerifyNet

VerifyNet是一個隱私保護和可信驗證的聯(lián)邦學習框架。VerifyNet的雙隱蔽協(xié)議保證用戶在聯(lián)邦學習過程中局部梯度的機密性,另外,中心服務器需要向每個用戶提供關于聚合結(jié)果的正確性證明。在VerifyNet中,攻擊者很難偽造證據(jù)來欺騙其他用戶。此外VerifyNet還支持用戶在訓練過程中退出,發(fā)現(xiàn)威脅迅速回退,多方面保護用戶的隱私安全。

4.對抗訓練

對抗訓練是增強神經(jīng)網(wǎng)絡魯棒性的重要方式,是一種主動防御技術。在聯(lián)邦學習對抗訓練過程中,樣本當中會混合一些微小的擾動(可能導致誤分類),然后使得神經(jīng)網(wǎng)絡適應這種變換,因此,最終生成的聯(lián)邦學習的全局模型對已知的對抗樣本具有魯棒性。

六、聯(lián)邦學習的種類

聯(lián)邦學習根據(jù)數(shù)據(jù)的類型可以劃分橫向聯(lián)邦學習(horizontal federated Learning)、縱向聯(lián)邦學習(vertical federated Learning)、聯(lián)邦遷移學習(federatedtransfer Learning)。

1.橫向聯(lián)邦學習

橫向聯(lián)邦學習適用于數(shù)據(jù)特征重疊性高且樣本重疊少的場景,比如:不同地區(qū)的醫(yī)院,他們的診療內(nèi)容相似,但病人不同。

首先,每個參與方都會得到相同的模型定義,并且統(tǒng)一模型的初始化參數(shù)。不斷迭代以下步驟訓練模型:

  • 每個參與方利用自己的數(shù)據(jù)訓練模型,分別計算梯度,再將加密過的梯度、參數(shù)上傳至協(xié)調(diào)方服務器。
  • 由協(xié)調(diào)方服務器整合各參與方的梯度參數(shù)并更新模型。
  • 協(xié)調(diào)方更新模型將更新后的梯度回傳給各個參與方。
  • 參與方更新各自的模型。

目前橫行聯(lián)邦學習技術架構(gòu)相對簡單,落地可行性較高。

2.縱向聯(lián)邦學習

縱向聯(lián)邦學習適用于樣本重疊多,但是特征重疊少的場景。比如同一地區(qū)的醫(yī)院、藥店或者保險機構(gòu),他們服務的患者大部分居住在該地區(qū),因此樣本相同,但藥店和醫(yī)院的業(yè)務不同,它們有不同的數(shù)據(jù)特征。

由于隱私保護法規(guī)問題,不能直接公開交換數(shù)據(jù)進行訓練。因此,如上圖所示,A與B需要利用加密對齊技術加密樣本,以確認雙方共享的客戶存在重疊,之后再利用這些數(shù)據(jù)進行加密。

A:參與方 ;B:參與方;C:協(xié)調(diào)方

① C 將公鑰發(fā)給 A 和 B(用來加密);

② A 和 B 分別計算和自己相關的特征中間結(jié)果,并交換結(jié)果,用來求得各自的最小值和損失值(loss)。

③ A和B分別將計算后且加密的最小值參數(shù)傳送給C,同時B根據(jù)標簽計算損失值并將結(jié)果匯整給C。

④ C將解密后的參數(shù)分別回傳給A和B,更新雙方的模型。

在整個過程中參與方都不知道對方的數(shù)據(jù)和特征,且訓練結(jié)束后參與方也只能得到自己估計的模型參數(shù)。

縱向聯(lián)邦學習雖然解決了特征重疊少的問題,但是只要參與方越多,計算架構(gòu)就會越加復雜難以執(zhí)行,落地難度較大。

3.聯(lián)邦遷移學習

當參與方擁有的數(shù)據(jù)的特征和樣本重疊的情況都很少時,可以利用聯(lián)邦遷移學習(transfer Learning)來克服數(shù)據(jù)與標簽短缺的狀況。

七、聯(lián)邦學習、分布式學習、多智能體

1.分布式機器學習

分布式機器學習(distributed machine learning),是指利用多個計算/任務節(jié)點(Worker)協(xié)同訓練一個全局的機器學習/深度學習模型(由主節(jié)點(Master)調(diào)度)。需要注意的是,分布式機器學習和傳統(tǒng)的HPC領域不太一樣。傳統(tǒng)的HPC領域主要是計算密集型,以提高加速比為主要目標。而分布式機器學習還兼具數(shù)據(jù)密集型特性,會面臨訓練數(shù)據(jù)大(單機存不下)、模型規(guī)模大的問題。此外,在分布式機器學習也需要更多地關注通信問題。

當我們利用多個計算節(jié)點并行化訓練模型時,工作負載被劃分到多個處理器或工作器上,以加快訓練過程。并行化主要有兩種類型。數(shù)據(jù)并行是指我們將訓練數(shù)據(jù)分配給可用的worker,并在每個worker上運行模型的副本。然后,每個worker在同一個模型上運行不同的數(shù)據(jù)片段。相比之下,模型(或網(wǎng)絡)并行是指我們將模型劃分為不同的工作者,每個工作者在模型的不同部分上運行相同的數(shù)據(jù)。

2.多智能體

多智能體系統(tǒng)(multi-agent system) 是一組自主的,相互作用的實體,它們共享一個共同的環(huán)境(environment),利用傳感器感知,并利用執(zhí)行器作動。多智能體系統(tǒng)提供了用分布式來看待問題的方式,可以將控制權限分布在各個智能體上。

3.聯(lián)邦學習、分布式學習和多智能體的區(qū)別


分布式機器學習

聯(lián)邦學習

多智能體

解決的問題

針對運算量大、數(shù)據(jù)量大等問題使用計算機集群來訓練大規(guī)模機器學習模型。

針對保護用戶隱私保護,數(shù)據(jù)安全等問題,通過高效的算法、加密算法等進行機器學習建模,打破數(shù)據(jù)孤島。

主要在多機器人、多無人機協(xié)同編隊以及多目標跟蹤與監(jiān)控中發(fā)揮作用。

數(shù)據(jù)處理方案

數(shù)據(jù)并行:先將訓練數(shù)據(jù)劃分為多個子集(切片),然后將各子集置于多個計算實體中,并行訓練同一個模型。

聯(lián)邦建模各方,本地數(shù)據(jù)不出庫,先在本地訓練模型參數(shù)(或梯度),然后通過同態(tài)加密技術交互其參數(shù),更新模型。

可以預先收集好環(huán)境數(shù)據(jù)然后采用經(jīng)驗回放技術進行訓練,也可以直接采用在線學習的形式,即多個智能體在環(huán)境中進行交互學習。

訓練方案

工業(yè)應用中,大部分還是以數(shù)據(jù)并行為主:各個節(jié)點取不同的數(shù)據(jù),然后各自完成前向和后向的計算得到梯度用以更新共有的參數(shù),然后把update后的模型再傳回各個節(jié)點。

各方在本地初始化模型參數(shù),經(jīng)過訓練獲得梯度(或參數(shù)),交由可信第三方進行模型的更新,然后分發(fā)到各方本地進行更新,如此反復,獲得做種的模型。

每個智能體獨立與環(huán)境交互,利用環(huán)境反饋的獎勵改進自己的策略,以獲得更高的回報(即累計獎勵)。此外多個智能體是相互影響的,一個智能體的策略不能簡單依賴于自身的觀測、動作,還需要考慮到其他智能體的觀測、動作。常采用中心化訓練+去中心化執(zhí)行[7][8]這一訓練模式。

通信方式

MPI(常用于超算,底層基于高速網(wǎng)絡如IB網(wǎng))、NCCL、gRPC(常用于廉價集群,底層基于TCP和以太網(wǎng))

gRPC(大部分)

高速網(wǎng)絡

數(shù)據(jù)

IID(獨立同分布)數(shù)據(jù),數(shù)據(jù)均衡

非IID數(shù)據(jù),數(shù)據(jù)不均衡甚至異構(gòu)

多智能體處于統(tǒng)一環(huán)境,數(shù)據(jù)滿足IID

成本

有專用的通信條件,所以通信代價往往較小

通信的代價遠高于計算的代價

智能體之間常由傳感器高速網(wǎng)絡連接,通信代價小

容錯性

很少考慮容錯問題

容錯性問題非常重要

基本不考慮容錯性

八、聯(lián)邦學習架構(gòu)

聯(lián)邦學習的架構(gòu)分為兩種,一種是中心化聯(lián)邦(客戶端/服務器)架構(gòu),一種是去中心化聯(lián)邦(對等計算)架構(gòu)。

1.中心化聯(lián)邦學習架構(gòu)

中心化聯(lián)邦學習架構(gòu)主要用于需要聯(lián)合多方用戶進行聯(lián)邦學習場景,協(xié)調(diào)方機構(gòu)作為中央服務器,起著協(xié)調(diào)全局模型的作用。

2.去中心化聯(lián)邦學習架構(gòu)

在多家參與機構(gòu)面臨數(shù)據(jù)孤島,又難以從多家機構(gòu)中選出協(xié)調(diào)方的場景,一般可以采用去中心化的聯(lián)邦學習架構(gòu)(對等架構(gòu))。

九、總結(jié)

雖然聯(lián)邦學習解決了分布在不同機構(gòu)的數(shù)據(jù)在不泄漏隱私的情況下得以應用,突破數(shù)據(jù)隱私障礙,提升了數(shù)據(jù)價值。但聯(lián)邦學習距離落地仍然存在許多技術難點:

  • 通信開銷問題:聯(lián)邦學習中的通信開銷問題是影響聯(lián)邦學習效率的主要瓶頸之一。
  • 數(shù)據(jù)的非獨立同分布: 通常情況下,機器學習的數(shù)據(jù)集是獨立同分布的,而聯(lián)邦學習的數(shù)據(jù)集卻常常以非獨立同分 布(Non-Independent Identically Distribution,Non-IID)的方式存在,這就對聯(lián)邦學習的實際落地形成了挑戰(zhàn)。
  • 系統(tǒng)和數(shù)據(jù)的異質(zhì)性:聯(lián)邦學習網(wǎng)絡中的客戶端系統(tǒng)通常會有多種類別,系統(tǒng)的異質(zhì)性以及來自設備的數(shù)據(jù)的不平衡、不一致分布會顯著影響聯(lián)邦學習模型的性能。并且客戶端的龐大數(shù)量和不一致性可能會使模型的可靠性下降。經(jīng)典的 FedAvg 對系統(tǒng)異構(gòu)性不夠健壯。

另外,除了技術難點之外,參與方的合作機制也需要探索,例如:

  • 如何打破同類機構(gòu)之間的數(shù)據(jù)競爭?
  • 如何說服擁有敏感數(shù)據(jù)的一方加入?
  • 如何維持參與方的穩(wěn)定,同時,若中途若有參與方退出,如何維持模型的穩(wěn)定?

總體來說,在數(shù)字化不斷發(fā)展的今天,可預見未來聯(lián)邦學習仍將是一個重要的研究領域。但目前聯(lián)邦學習還有待進一步提升相關技術并增加成功落地案例。

責任編輯:趙寧寧 來源: andflow
相關推薦

2022-09-12 20:31:54

隱私計算AI數(shù)據(jù)

2022-05-19 12:04:07

隱私保護攻擊威脅

2023-08-24 07:33:28

2020-04-30 13:45:56

隱私框架深度學習

2021-05-20 11:20:52

數(shù)據(jù)隱私安全

2014-10-13 18:14:49

XTools CRM

2021-06-04 15:38:18

聯(lián)邦學習人工智能數(shù)據(jù)

2021-10-29 15:24:48

洞見科技

2013-03-13 16:14:19

虛擬化大數(shù)據(jù)

2021-04-29 14:40:11

數(shù)據(jù)安全隱私

2017-07-13 10:14:20

大數(shù)據(jù)動向數(shù)據(jù)價值

2025-01-26 09:07:46

2014-11-19 09:59:26

隱私控制

2020-09-14 13:59:24

數(shù)據(jù)

2021-03-24 16:10:58

智慧城市物聯(lián)網(wǎng)大數(shù)據(jù)

2013-01-10 10:18:59

云BI云分析大數(shù)據(jù)

2013-09-23 09:18:16

云網(wǎng)絡延遲云網(wǎng)絡內(nèi)容交付網(wǎng)絡

2020-12-25 16:30:17

機器學習/隱私保護

2019-06-06 10:06:07

華為智能數(shù)據(jù)解決方案FusionData
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩高清一区 | 久久久久久久久久久高潮一区二区 | 日日爱视频 | 亚洲国产精品一区 | 欧美精品在线一区 | 亚洲精品久久久久久首妖 | 69av片| 国产色婷婷精品综合在线手机播放 | 视频一区二区中文字幕 | 国户精品久久久久久久久久久不卡 | 九色在线观看 | 欧美男人天堂 | 天天干天天干 | 国产成人精品午夜视频免费 | 欧美精品在线免费观看 | 欧美人妇做爰xxxⅹ性高电影 | 国产精品日产欧美久久久久 | 天天躁日日躁aaaa视频 | 久久国产精品一区二区三区 | 久婷婷 | 在线看黄免费 | 91看片官网 | 国产男女猛烈无遮掩视频免费网站 | 国产在线资源 | 日韩中文字幕在线不卡 | 日韩综合在线播放 | 在线日韩av电影 | 欧美一级片在线看 | 欧美极品在线观看 | 91亚洲精品在线 | 久久久久久久综合 | 亚洲手机视频在线 | 国产日韩欧美一区 | www.色.com| 综合精品 | 亚洲欧美精品一区 | 亚洲综合热 | 国产丝袜av | 精品美女 | 国产男女精品 | 中文字幕在线一区 |