阿里達摩院開源新框架:入局隱私保護計算,聯邦學習迎來重磅玩家
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
沒人愿意隨便交出自己的隱私。
當蘋果正式推出“應用跟蹤透明度”隱私保護功能時,只有16%的用戶選擇了允許App跟蹤自己的活動。
但正如蘋果提示所說,有時又不得不用隱私數據來交換便利和服務質量。
于是一年后的今天,據Adjust數據分析公司統計,這一數字又回升到25%。
也就是說,更多的用戶重新認可了接收個性化內容對自己的價值。
究竟有沒有方法能做到兩全其美,讓互聯網平臺在嚴格保障用戶隱私的前提下,仍為用戶提供優質的服務?
還真有。
當下最主流的一種解決方案就是聯邦學習,一種用來建立機器學習模型的算法框架。
在聯邦學習的框架下,用戶自身的數據從始至終都停留在用戶自己的手機、汽車和各類物聯網設備等終端內。
同時,訓練機器學習模型需要的信息會以加密、加噪聲或拆分等方式保護起來,聚合到云端的服務器進行模型更新,此后云端再將更新的模型推送給用戶終端。
通過這樣的交互和迭代過程,服務提供商既能夠訓練高性能的模型為用戶提供服務,同時也能保護好用戶的數據隱私。
聯邦學習2016年由谷歌首次提出,之后逐漸成為熱門研究領域。
學術上,論文發表數量迅猛增長。
△來自清華大學《2021聯邦學習全球研究與應用趨勢報告》
開源框架上,也匯聚了國內外眾多大廠。
△來自Github倉庫Awesome-Federated-Machine-Learning
谷歌Tensorflow-Federated是橫向聯邦學習的代表:
本地和云端模型特征共享,樣本數據不共享,更適合于C端同一企業為多個用戶提供服務的情況。
楊強教授帶領的微眾銀行FATE框架是縱向聯邦學習的代表:
模型特征不一致,樣本數據有重疊,更適合B端如兩家企業共享一群客戶但關注的特征不同。
再進一步又有聯邦遷移學習,兼顧了上面兩者的特點,適用于參與者間特征和樣本重疊都很少的情況。
就在最近,又有重磅玩家悄然入局:阿里達摩院開源新的聯邦學習框架FederatedScope。
△https://federatedscope.io
問題也隨之而來:
新框架與之前有何差異點與競爭優勢?達摩院為何選擇此時入局?
不妨先從聯邦學習領域現狀,和FederatedScope框架自身的特性來一窺究竟。
當下需要什么樣的聯邦學習框架?
隨著5G、物聯網、云計算技術的發展,聯邦學習涉及的設備的應用場景也越發多樣。
異構性成了對傳統聯邦學習最大的挑戰。
不同設備在算力、存儲能力和通訊能力上的差異稱為系統資源異構。
各個設備本地數據非獨立同分布會導致數據異構。
不同的應用場景又會帶來行為異構。
這些異構性對聯邦學習提出了新的要求:
首先,聯邦學習參與方之間傳遞的信息形式會更加豐富,不再局限于模型參數或者梯度這一類的同質信息。
如在金融、電信行業常用的圖數據上進行聯邦學習,參與方之間還會傳遞節點的嵌入式表示等信息。
△來自《Federated Graph Learning - A Position Paper》
豐富的信息種類要求聯邦學習框架能靈活支持不同類型的信息傳遞。
其次,跨設備聯邦學習不能再拘泥于傳統的“服務器端負責聚合,用戶端負責本地訓練”模式。
服務器端往往需要對模型做壓縮處理,來滿足終端設備的運行要求。而終端設備還要負責對收到的模型進行微調來取得更好的效果。
多樣化的參與方的行為要求聯邦學習框架能夠靈活支持多種自定義行為。
跨設備還會帶來的各參與方響應速度和可靠性參差不齊的問題,需要聯邦學習框架允許開發者根據真實情況采用不同的異步訓練策略。
甚至跨設備參與方還會使用不同的后端環境,例如有些設備使用PyTorch,另外一些則使用TensorFlow。
這要求聯邦學習框架需要有更好的兼容性,支持跨平臺組建聯邦學習,避免要求使用者費時費力地對所有參與方進行環境的適配。
最后,隨著聯邦學習從研究前沿逐漸走向工業應用,需要聯邦學習框架為單機仿真和分布式部署提供統一的算法描述和接口,以滿足研究者和開發人員不同的應用需求,并降低從仿真到部署的遷移難度。
達摩院智能計算實驗室開源的新聯邦學習框架FederatedScope,正是為解決這些新挑戰而生。
對于消息類型和自定義行為,FederatedScope將聯邦學習看成是參與方之間收發消息的過程。
這樣便可以通過定義消息類型以及處理消息的行為來描述聯邦學習過程,同時支持用戶通過添加額外的消息類型和處理行為進行定制化。
FederatedScope把聯邦過程(例如協調不同的參與方)和模型訓練行為(例如訓練數據采樣、優化等)解耦開,使開發者能夠專注于定制參與方的行為。
相比現有的聯邦學習框架,FederatedScope不需要從順序執行的角度考慮如何串聯不同參與方,降低了開發的復雜度及所需代碼量。
△經典聯邦學習
△FederatedScope模式
對于異步訓練,FederatedScope采用事件驅動的編程范式來支持,并借鑒分布式機器學習的相關研究成果,集成了異步訓練策略來提升訓練效果。
對于后端跨平臺支持,FederatedScope對訓練模塊做了抽象,使核心框架不依賴任意一種深度學習后端,能兼容不同的設備運行環境,大幅降低了聯邦學習在真實場景部署的難度和成本。
除了解決這些挑戰以外,FederatedScope還十分注意框架對多樣化場景的適用性,以及對開發者的易用性。
對此,FederatedScope集成了多種功能模塊,包括自動調參、隱私保護、性能監控、端模型個性化。
同時支持開發者通過配置文件便捷地調用集成模塊,也允許通過注冊的方式為這些模塊添加新的算法實現并調用。
例如通過注冊的方式使用準備好的新數據集和模型架構,可以方便的將經典聯邦學習應用在不同下游任務,不需要修改其他的細節。
為了讓即使是剛剛接觸聯邦學習的初學者能快速上手,FederatedScope提供了詳盡的教程、文檔和運行腳本。
同時FederatedScope也包含了常用的模型架構實現,對一些基準數據集也做了統一的預處理和封裝,以幫助用戶便捷地開展實驗。
隱私保護計算發展到什么階段了?
綜上不難看出,達摩院對于聯邦學習框架的考量,更多集中在了便捷與廣泛的應用方面。
之所以會形成這樣的局面,其實還要看整個大環境的變化。
從去年開始,隱私保護計算行業發展日趨火熱。
日前IDC發布報告顯示,2021中國隱私保護計算市場規模突破8.6億元人民幣大關,未來增長率有望超過110%。
Gartner預測表示,到2025年之前,約60%的大型企業預計將應用至少一種隱私保護計算技術,達摩院2022十大科技趨勢同樣將隱私保護計算列為重要趨勢。
量子位智庫估算,截至今年3月,國內具有隱私保護計算相關業務的廠商可能已經達到150家左右。
整個賽道呈現出第三方初創公司、大型互聯網公司、AI軟件開發商、轉型公司、甲方自研參與的“混戰局面”。
市場蓬勃發展的同時,國家、社會對隱私保護計算的關注度也在增加。
2020年,國家將數據納入生產要素,與土地、勞動力、技術等傳統要素并列;
2021年,《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》《汽車數據安全管理若干規定(試行)》相繼實施。
可以看到,政府近兩年來一邊在大力培育以數據為基礎的資源市場,另一邊也在加速建立相關規范。
社會層面對隱私保護計算的需求也在增長。
尤其是近兩年來,健康碼、人臉識別等應用讓大眾看到了數據流通帶來的價值,但隱私泄露引發的安全事件也層出不窮。
這導致社會上關于合理合規使用隱私數據的呼聲愈加高漲,進而催生出隱私保護計算產業更多需求和場景。
實際上,量子位智庫分析,隱私保護計算產業非常重要的一層價值,就來自于為社會提供生產力。
量子位智庫分析,隱私保護計算的價值分為三層:
- 第一層:行業自身發展
- 第二層:產業協同發展
- 第三層:推動數據要素流通,提升社會生產力
預計到2030年,我國隱私保護計算行業的總市場規模將達到1134億。
其中第三層價值占比最高,可達到62%;第一層、第二層占比分別是11%、27%。
而另一邊,學術研究上近兩年對于聯邦學習、隱私保護計算的關注度也在增高。
去年7月,Gartner預測,在2021-2025年的周期中,聯邦學習將發揮主流作用,引導隱私保護計算的商業化大潮。
清華大學人工智能研究院聯合多方發布的《2021 聯邦學習全球研究與應用趨勢報告》中也提及,聯邦學習科研發展呈整體熱度逐年上升趨勢。
研究論文產出量及專利申請受理量,中美兩國占據領先主導地位。
2016-2020年期間,中國聯邦學習論文發表量為666篇,位居同期全球第一。
聯邦學習高被引論文半數來自中美,全球該領域學者也主要聚集在這兩國。
顯然,科研界與產業界出現了協同共進的趨勢。
△來自清華大學《2021聯邦學習全球研究與應用趨勢報告》
在此背景下,也就不難理解達摩院為何在此時以開源平臺,入局隱私保護計算了。
但為什么選擇從底層技術做起?我們找到達摩院的技術專家,直接求問思考和答案。
一方面源自于達摩院的自身屬性。
作為技術圈重磅玩家,達摩院自然更關注前沿技術本身的價值及前瞻性。
另一方面,還來自達摩院對隱私保護計算長期的洞察。
達摩院智能計算實驗室資深技術專家丁博麟,有著十余年的隱私保護計算研究經歷。他在與我們的交談中提到,近兩年來,聯邦學習方面的科研成果開始集中涌現。
作為技術人員,自然而然想到從工具入手,推動這股研究浪潮更快前進。
“我們也是希望能夠開源一個輕量級、易用的平臺,讓大家能夠在上面實現更多的科研協同,從而產生更多學術成果,并更進一步推動產業創新?!?/span>
舉個例子來說,現在很多服務商都需要申請用戶的隱私數據權限,但每個人對隱私保護的要求不同。
在并不是所有人都愿意提供數據的情況下,如何保證產品能不斷優化?
這就需要學界和產界進行共同探索。
FederatedScope開源平臺便能為此提供一個模擬環境,支持多方聯合開發。
而最后探索出來的成果,達摩院也會將它用開源框架工具的形式固定下來,避免后續開發者重復工作。
達摩院智能計算實驗室高級技術專家李雅亮,負責了此次FederatedScope開源。
他表示目前這一版開源平臺,主要是為技術開發提供助力,下一階段將會更加側重產業部署方面的考量。
而且除了聯邦學習,達摩院在隱私保護計算的其他領域(如多方安全計算、可信執行環境等)也有部署。
達摩院智能計算實驗室一直在密切關注數據安全和隱私保護方面技術發展,注重研究數據采集、數據共享和數據呈現等階段中用戶隱私安全保護問題,同時關注降低數據損耗、提高數據分析能力等研究。
技術和法規之間的gap如何填補?
值得一提的是,在與達摩院兩位技術專家交談的過程中,“合規”一詞,被提及了20余次。
與之相關的內容,不是技術在法規壓力下發展受限,在法規推動下蓬勃發展。
在隱私保護計算領域已有十余年研發經驗的丁博麟提到,隱私保護計算技術的首要價值,就是促進合規。
這一點是任何一項隱私保護計算服務設計和開發階段,最先考慮的問題。
或者說,在合規條件下實現技術創新、讓數據流通價值更大化,是隱私保護計算技術的初衷之一。
那么,怎樣才是合規的?技術的邊界到底在哪里?
這個標準答案業內期盼已久。
實際上,我國不僅近年來出臺多部數據隱私相關法律政策,立法嚴格程度也處于世界領先水平,這在一定程度上,促使我國隱私保護計算市場在起步較晚的情況下高速發展。
丁博麟認為,應該明確的邊界包括幾個層面:“哪些數據嚴格不能采集”,“哪些數據可以通過技術方案實現安全地采集和應用”,以及“哪些技術方案可以通過圍繞合規法條構建的安全模型檢驗、在什么樣的場景下可被使用”。
近年來出臺的法規逐步明確了第一層面的邊界,第二層面和第三層面的邊界還有待政府部門聯同產學研界共同探索。
這其中需要學術界來提供最核心和前沿的技術進展,也需要產業界從實際技術應用中提煉案例思考,共同為邊界的細化提供參考。
而當邊界更加清晰后,技術探索和產業發展的腳步還會加快,從而持續驅動數據隱私保護技術的進步和發揮數據應用的價值。
最后,回到文章的開始:
對于“隱私和便利是否能兩全”這個問題,你怎么看?
FederatedScope開源地址:
https://github.com/alibaba/FederatedScope