隱私保護新突破:高斯差分隱私框架與深度學習結合
人工智能中的隱私問題已經公認為一個重要并且嚴肅的問題。近日,賓夕法尼亞大學的研究組開發了一個新的數據隱私分析框架,可以在多個類型的機器學習問題中有效保護個人隱私。這個框架現已成功和深度學習結合,并在多個需要保障隱私的深度學習任務中達到最高準確率。
什么是差分隱私
在這個大數據時代,如何妥善獲取和使用與真人相關的數據,漸漸成為迫切需要解決的問題。沒有人希望自己生個病,上個網,買件衣服都會被人隨意知曉,更別提手機里沒有修過的自拍了。一種簡單的隱私保護方法就是「匿名」:將收集到的數據中涉及個人信息的特征剔除??上н@種方法并不可靠,曾有研究將 Netflix 匿名處理過的觀影記錄通過交叉對比 IMDb 數據庫解匿成功,這直接導致了第二屆 Netflix 數據分析大獎賽的取消。
2006 年,隱私算法的研究迎來了新的里程碑。Cynthia Dwork, Frank McSherry, Kobbi Nissim 和 Adam Smith 四位科學家定義了「差分隱私」(以下縮寫為 DP),來嚴謹地分析隱私這個概念。差分隱私很快被證明是個強有效的工具,并被谷歌、蘋果、微軟、阿里巴巴等各大機構使用。而四位發明者于 2017 年獲得了被譽為理論計算機科學界諾貝爾獎的 Godel 獎。
要理解差分隱私,我們可以看看下面這個簡單的假設檢驗:假設有兩個數據集 S, S'
S={小明,小剛,小美};S'={小紅,小剛,小美}
我們說這兩個數據集是鄰近的,因為它們的差異僅體現在一個人上。我們的目的是檢驗我們的模型是否是基于 S 訓練的,這等價于檢驗小明是否存在于我們的數據中。如果這個假設檢驗非常困難,那么想要獲取小明信息的攻擊者就難以得逞。嚴謹來說,一個隨機算法 M 符合 (epsilon,delta)-DP 意味著對于任何的事件 E,
從定義不難看出,epsilon 和 delta 越小,隱私性越好。那么,如何實現能保證算法的隱私性呢?
具體做法是衡量算法的中間產物(比如梯度)的敏感性,并根據其大小施加一個成正比的噪音。由于噪音的存在,想要竊取小明信息的攻擊者便無法確定小明是否在訓練集中。在深度神經網絡中,每一次迭代都會犧牲一部分隱私來換取性能的提高。我們可以對每個批(batch)的梯度加噪音,從而達到混淆攻擊者的目的。
當然,噪音加的越大,隱私就越安全,但是隨之性能也自然越差。在有限的隱私預算下,很多時候隱私算法的性能表現會不如人意。
深度學習經常需要敏感的個人信息來訓練?,F存的差分隱私定義以及隱私模型都試圖在性能和隱私中找到一個平衡。可惜的是,這些嘗試仍不能很好的處理兩個重要環節:subsampling 和 composition。這導致了隱私算法的性能通常遠遜于非隱私算法。
高斯差分隱私
Gaussian differential privacy (GDP) 是最近被提出的一種隱私表示方法。它可以精確的刻畫 optimizer 在每個 epoch 所消耗的隱私。GDP 的表達簡潔且是廣義的(在 SGD, Adam, Adagrad 等多個優化器上的刻畫是完全一樣的)。GDP 的分析被進一步推廣到 Poisson subsampling 和新的優化器上。新的推廣得到了理論上嚴謹的證明,尤其證明了它優于此前最先進的 Moments accountant 方法。
在《Gaussian Differential Privacy》一文中,賓夕法尼亞大學的董金碩、Aaron Roth 和蘇煒杰創新性地定義了「f-DP」來刻畫隱私。如果用 alpha 來表示第一類錯誤,beta 來表示第二類錯誤,對于任何一種拒絕規則 (rejection rule) phi,都存在一個抵換函數 (trade-off function) T:降低第一類錯誤會導致第二類錯誤增加,反之亦然。我們將兩類錯誤的和的最小值稱為最小錯誤和。
一個隨機算法 M 在 S 和 S』上的抵換函數 T 如果始終大于函數 f,那么它就滿足 f-DP。
對比于傳統的 eps,delta-DP,f-DP 使用的是一個函數 f,這也使得其刻畫更為自由和準確。
作為 f-DP 的一個重要案例,作者隨后介紹了高斯差分隱私(GDP)來區分兩個高斯分布。根據中心極限定理(CLT),任何基于假設檢驗的隱私定義在極限情況下都會收斂于 GDP。事實上,相對于谷歌在 2016 年提出的,適用于計算 epsilon,delta-DP 的 Moments Accountant (MA) 方法,本文提出的 CLT 方法可以更簡易地計算 GDP,而且非常準確。值得注意的是,該文章最近被國際頂級統計學雜志 Journal of the Royal Statistical Society: Series B 接收為 Discussion paper,這是數據科學界對該工作的一種認可。
GDP 與深度學習的結合
GDP 的好處還不止于此。在最新工作《Deep Learning with Gaussian Differential Privacy》中,卜至祺、董金碩,龍琦和蘇煒杰等作者指出 GDP 和 eps,delta-DP 可以通過他們設計的 Dual 函數互相轉換。也就是說,研究者可以在 f-DP 的框架下分析算法再轉成傳統的 dp,或者從傳統領域中拿來已有的理論和技巧,不必二次開發。這項技術現在已經在 TensorFlow 中實現。
- 論文地址:https://arxiv.org/abs/1911.11607
- 項目實現:https://github.com/tensorflow/privacy/blob/master/tensorflow_privacy/privacy/analysis/gdp_accountant.py
在實驗中,作者們將 GDP 和深度學習結合,并在多種類型的任務上取得了不俗的成績。此前谷歌也曾將 epsDP 和深度學習結合,雖然在 MNIST 圖像識別上取得了 97% 的正確率(無隱私算法可達到 99% 以上),在 CIFAR10 上卻止步于 73% 的正確率(無隱私算法可達 86%)。而利用 GDP 的精確刻畫,作者們在 MNIST 上取得了 98% 的準確率。不僅如此,MA 計算的結果表示 MNIST 的 96.6% 正確率對應的是 9.4% 的最小錯誤和,意味著攻擊者有超過九成的概率猜對一張圖片是否在數據集中。而 CLT 的計算表明 epsDP 太過于保守:同樣的模型同樣的表現,實際對應的最小錯誤和其實是 77.6%,也就是說隱私并沒有損失很多。
為了全面探討 GDP 的優越性,作者在 GDP 框架下分析了神經網絡的表現。作者實現了 SGD 和 Adam 的隱私版本,并通過讓神經網絡不斷迭代直到 GDP 達到了 mu=2。在 IMDb(自然語言處理),MovieLens 1M(推薦系統)和 Adult Income(非圖像型分類任務)上,GDP 模型都取得了非常接近無隱私模型的性能。例如在 Adult Income 數據上,隱私神經網絡和無隱私神經網絡表現幾乎一樣好,意味著隱私也許并不需要以很大的性能犧牲為代價。更進一步的,作者強調文中的神經網絡都相對簡單(不超過三層),如果使用更復雜更高級的神經網絡可以在同樣的隱私保證下更顯著地提升性能。而另一方面,使用高效的優化算法(減少迭代次數,即隱私的損失次數)也能讓性能變得更好。
既然 CLT 可以在同樣性能的條件下比 MA 更好地保護隱私,那么反過來想,在同樣的隱私預算下,GDP 也能顯示出更強的性能。作者構思了一個實驗來說明這一點:訓練一個加了 sigma 噪音的神經網絡若干步,通過 MA 可以算出目前損失了多少隱私,通過 CLT 和 Dual 反解出真正必須的噪音 sigma hat。注意 sigma hat 必然小于 sigma,然后訓練同一個神經網絡但只加 sigma hat 噪音。由于噪音變小,新的神經網絡學習效果會更好,而且在每一次迭代,新神經網絡都會更好地保護隱私。
將神經網絡和 GDP 結合,可以更精準地呈現隱私損失,從而更好地保護隱私以及提升隱私算法的性能。另一方面,已有的 (epsilon,delta)-DP 研究也可以嫁接到 GDP 中,為兩個領域帶來了新的機遇。這一隱私算法領域的新進展給予了研究者們更大的信心去相信,隨著機器學習的進一步發展,我們也許在不遠的未來就能以可忽略不計的代價來保護我們的隱私。同時,它也鼓勵人們更愿意分享涉及個人信息的數據,來推動機器學習的發展。