一個鮮為人知卻可以保護隱私的訓練方法:聯合學習
大數據文摘出品
來源:麻省理工科技評論
編譯:stats熊
無論是國內還是國外,公眾對隱私保護的意識越來越強烈。
尤其是醫療數據,因為大部分病人不愿意將自己的診斷結果等這類隱私信息拿出來,所以機器學習在疾病診斷和探索潛力被大大壓制。
在2017年的時候,谷歌曾經悄悄的發表了一篇關于機器學習新方法的博客。
與常規方法需要把數據集中不同的是,新的方法會從多個數據源獲取數據進行學習。這種新方法的出現,讓谷歌可以不需要通過讀取或者轉移安卓手機用戶的短信,就可以訓練他們用在這些收發短信上的預測語義模型。
這是一個鮮為人知卻可以保護隱私的訓練方法。
數據不離開每家醫院就可以完成整體模型訓練,并且準確率可以媲美整合多家醫院數據訓練的模型。
盡管這種聯合學習方式很聰明,但正如那些研究人員所言,這個在當時人工智能的圈子里并沒有太多吸引力。現在,隨著在全新領域得到應用,這種情況也將發生改變:這種隱私優先的方法將會是解決人工智能在醫療健康領域障礙的一針強心劑。
MIT計算機科學相關的副教授Ramesh Raskar,曾這樣說過:“在病人數據隱私方面和數據對于社會的效用之間存在著一種錯誤的二分法,現在我們可以同時實現數據的隱私和效用,而數據就像腳下流走的沙子,人們完全察覺不到。”
過去的十年間,深度學習的迅速崛起引起了很多企業的變革。正是因為這種崛起推動了無人汽車的發展,從根本上改變了我們與設備交互方式,讓我們對網絡安全產生了新發明。在健康領域,盡管有許多研究表明深度學習可以探測和診斷疾病,但是利用機器學習來幫助真正的病人方面還是進展緩慢。
現在那些流行的算法需要有大量數據做學習,在絕大多數情況下,越多數據算法的結果會越好。如果醫院和研究機構想要有一個又大又多的數據資源池,那他們就需要把數據存儲在一起。
特別在美國和英國,將那些掌握在科技巨頭手中的敏感醫療信息中心化被多次證明極不受歡迎,而且并不讓人感到意外。
因此,將人工智能投入診斷研究的眼界和適用性就變得十分狹小。你不能在全世界推廣乳腺癌的探測模型,因為它只在來自同一家醫院的幾千名病人身上做過驗證。
這些都會通過聯合學習改變。這種技術可以用來自幾家不同醫院的數據,同時這些數據從來沒有離開過醫院環境或者觸碰一家技術公司的服務器。
具體操作方式
這是如何做到的?首先在不同醫院用它自己的數據訓練出來不同的模型,然后把這些模型送到中心處理器并整合為一個完美模型。
當每個醫院不停獲取數據,通過把全新優秀模型下載到醫院端,并將新數據導入,再推送回中心服務器。通過這樣的步驟,新的數據不會被交換出去,被交換的只有模型,所以數據也不會被反向揭露。
聯合學習面臨的挑戰
當然這種聯合學習還面對許多挑戰。其中之一,將幾個獨立模型合并成一個完美模型面臨的風險,要比每一個單獨的模型都要大。Raskar說,研究人員正在改善現有技術,以保證這類問題不再發生。
另一個挑戰,就是聯合學習需要每個醫院有訓練機器學習模型的基礎設施和基本能力。同時,如何把從全醫院收集來的數據進行標準化也是一大障礙。但是正如Raskar所說,“雖然說還有許多工作需要完成,但大多只是創可貼一樣的修修補補”,沒有什么困難是不能克服的。
其他隱私優先的機器學習
事實上,其他的隱私優先分布式學習技術已經可以解決那些問題。例如,Raskar和他的學生近期研究出了分離學習。在聯合學習中,每個醫院開始都是訓練獨立模型,但只僅僅訓練半程。這些半成品模型之后被送往中心服務器去合并,同時完成訓練。
這樣做的優點可以減輕一些醫院獨立計算的負擔。雖然說這個技術還是停留在概念證明階段,但是先前的試驗,讓Raskar的研究團隊同樣也證明了,如果在中心數據池里進行訓練,會形成一個接近于完美的模型。
少部分公司,包括IBM研究中心在內,正在推動聯合學習在現實生活中的人工智能在醫療健康方面的應用??偛吭O在巴黎的Owkin公司,在Google投資公司的幫助下,開始應用聯合學習來預測病人的抗藥性和抗治療性,同時觀測他們在確定疾病下的存活率。
這家公司同時借助在美國和歐洲的癌癥研究中心提供的數據來進行模型研究。公司創始人提到,合作的結果會被發表在一篇即將發表的研究論文上,是一個基于病人病理圖可以預測一種罕見癌癥存活率的模型。
Owkin公司聯合創始人兼臨床研究醫生Thomas Clozel,這樣說到:“我十分激動。現如今在腫瘤學最大的障礙就是知識。讓我們感到非常興奮的是現在有能力解鎖這些知識,同時也可以在醫療領域開展創新性探索。”
Raskar相信這些在分布式學習應用將會遠遠拓展到醫療健康之外的企業,尤其是那些人們不想分享數據的地方。最后他總結到:“在分散的、缺乏信任的環境下,這種學習方法將會十分十分十分有用。”
Karen Hao是MIT技術評論人工智能板塊記者。特別是,她的報道涵蓋了技術的倫理和社會影響,也包括那些對于社會的應用。
相關報道:
https://www.technologyreview.com/s/613098/a-little-known-ai-method-can-train-on-your-health-data-without-threatening-your-privacy/
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】