PubDef:使用公共模型防御遷移攻擊
譯文譯者 | 布加迪
審校 | 重樓
對抗性攻擊對機器學習系統的可靠性和安全性構成了嚴重威脅。通過對輸入進行微小的變動,攻擊者就可以導致模型生成完全錯誤的輸出。防御這種攻擊是一個很活躍的研究領域,但大多數提議的防御措施都存在重大的缺點。
這篇來自加州大學伯克利分校研究人員的論文則介紹了一種名為PubDef的新防御方法,在這個問題上取得了一些進展。在保持干凈輸入準確性的同時,PubDef在面對現實攻擊時獲得了更高的穩健性。本文解釋了這項研究的背景、PubDef的工作原理、結果及其局限性。
對抗性威脅領域
人們研究了許多類型的對抗性攻擊,最常見的是白盒攻擊。在這里,攻擊者可全面訪問模型的參數和架構。這讓他們得以計算梯度,以精確地設計導致錯誤分類的輸入。像對抗性訓練這樣的防御措施已經被提議,但它們在面對干凈輸入時性能會大大降低。
遷移攻擊更現實。攻擊者使用可訪問的代理模型來設計對抗性示例。他們希望這些遷移騙過受害者的模型。遷移攻擊很容易執行,并且不需要訪問受害者模型。
基于查詢的攻擊對模型進行重復查詢以推斷其決策邊界。一些防御措施通過監視使用情況來檢測和限制這些攻擊。
總的來說,遷移攻擊在實踐中非常合理,但無法通過典型的防御措施來加以解決,比如對抗性訓練或限制查詢的系統。
博弈論觀點
圖1. 該論文的配圖顯示了一個威脅模型,低成本攻擊者使用公共模型進行遷移攻擊,還顯示了PubDef防御
PubDef專門旨在抵抗來自公開可用模型的遷移攻擊。作者將攻防之間的交互描述為一種游戲:
- 攻擊者的策略是選擇一個公共源模型和攻擊算法來設計對抗性示例。
- 防御者的策略是為模型選擇參數,使其具有穩健性。
- 博弈論為最佳策略的推理提供了工具。重要的是,防御者可以同時針對來自多個源模型的攻擊進行訓練。這種類似集成的方法使模型對各種攻擊具有穩健性。
PubDef的工作原理
PubDef通過以下方式訓練模型:
1. 選擇一組不同的公開可用源模型。
2. 使用訓練損失,最大限度地減少來自這些源模型的遷移攻擊的錯誤。
這種對抗性訓練過程調整模型,以抵抗從公共源遷移過來的特定威脅模型。
訓練損失根據當前的錯誤率對每個攻擊動態加權。這側重于訓練最有效的攻擊。
源模型的選擇涵蓋不同的訓練方法:標準、對抗性和破壞穩健性等。這提供了對未知攻擊的廣泛覆蓋。
試驗結果
論文作者們在CIFAR-10、CIFAR-100和ImageNet數據集上針對264個不同的遷移攻擊評估了PubDef。
結果顯示,PubDef明顯優于之前的防御措施,比如對抗性訓練:
- 在CIFAR-10上,PubDef達到了89%的準確率,而對抗性訓練只達到了69%的準確性。
- 在CIFAR-100上,準確率為51%比33%。
- 在ImageNet上,準確率為62%比36%。
值得注意的是,PubDef實現了這一改進,并且面對干凈輸入的準確性幾乎沒有下降:
- 在CIFAR-10上,準確率僅從96.3%下降到96.1%。
- 在CIFAR-100上,準確率從82%下降到76%。
- 在ImageNet上,準確率從80%下降到79%。
圖2. PubDef實現了這一改進,面對干凈輸入的準確性幾乎沒有下降
因此,與對抗性訓練相比,PubDef提供了更好的穩健性,對未受擾動的數據的性能影響要小得多。
局限性和未來工作
PubDef特別關注來自公共模型的遷移攻擊,解決不了白盒攻擊等其他威脅。另外一些限制如下:
- 依賴模型保密。
- 可以通過訓練一個私人代理模型來加以規避。
- 需要防御基于查詢的攻擊的其他方法。
鑒于預期范圍,PubDef提供了與實際攻擊者能力相一致的實用防御。但還需要做進一步的工作,才能處理其他威脅,并減輕對保密的依賴。
總的來說,這項工作在可部署防御方面取得了重大進展。通過針對一個合理的威脅模型,穩健性的提高幾乎是免費的,精確度損耗最小。這些想法有望推動進一步的研究,從而產生更有效和實用的防御措施。
結論
對抗性攻擊為部署可靠的機器學習系統提出了一個緊迫的挑戰。雖然已提議了許多防御措施,但很少有防御措施在面對干凈輸入不降低性能的情況下在穩健性方面取得實質性進展。
PubDef代表著朝開發可以實際部署在實際系統中的防御邁出了大有希望的一步。在處理其他類型的攻擊和對模型保密減輕依賴的程度方面仍有工作要做。然而,這里介紹的技術(即通過博弈論為模型建立交互、針對各種威脅進行訓練,以及關注于可行的攻擊)為進一步的進展提供了藍圖。
對抗性攻擊可能仍然是機器學習安全的一個問題。隨著模型不斷滲入到醫療保健、金融和交通等關鍵領域,對有效防御的需求變得更加迫切。PubDef表明,如果力求防御與實際威脅相一致,可以在無需兼顧取舍的情況下大幅提升穩健性。開發實用的防御措施,將額外成本降到最低,這是安全可靠地部署機器學習安全的最切實可行的途徑。
原文標題:PubDef: Defending Against Transfer Attacks Using Public Models,作者:Mike Young