開源大模型可能不香了!您在微調開源大模型的時候,很可能已經泄露了您寶貴的數據! 原創
如果你下載了一個大模型,你必須確認開發者沒有設置后門!如果這些大模型設置了后門,他們可能會竊取你的微調數據!
近日,來自ETH的研究人員發表了一篇工作,其主要的靈感來自于聯邦學習中的數據竊取攻擊。研究人員為大模型添加了帶有后門權重的梯度,并且這些梯度編碼了一個訓練輸入。
如果一個不知道的受害者下載了這個帶有后門的大模型,并在敏感數據上進行微調,新模型的權重將直接編碼其中一部分的數據!
該工作中的設置比聯合學習中的攻擊更加困難,攻擊者只能看到最終微調的模型,這類后門必須在微調期間僅執行一次。為此,研究人員通過設計一個 “鎖” 來實現這一點:這是一個存儲數據后會關閉的存儲單元。
研究人員一系列技術手段,包括處理token、GeLUs、層歸一化、注意力等,將這一后門設計擴展到Transformers模型中,結果得到了一個可以在ViTs和BERT模型中捕獲訓練輸入的后門漏洞。注意,這里的是白盒的:攻擊者需要看到受害者模型的最終權重。
進一步,研究人員在更強的黑盒設置中展示了:
- 攻擊者可以使用模型竊取技術恢復數據
- 可以實現完美的黑盒成員推斷攻擊
該結果對差分隱私(DP)具有重要影響,如果使用DP-SGD訓練一個帶有后門的模型,黑盒攻擊幾乎與白盒攻擊一樣強大!
論文:https://arxiv.org/abs/2404.00473
代碼:https://github.com/ShanglunFengatETHZ/PrivacyBackdoor
什么是后門漏洞?
后門漏洞(Backdoor Vulnerability)是指在計算機系統、軟件或網絡中存在的一種安全漏洞,它允許攻擊者通過特定的非正常手段繞過正常的安全機制,獲取未經授權的訪問權限或執行惡意操作。后門漏洞通常由軟件設計中的錯誤、缺陷或惡意代碼引起。
后門漏洞的存在可能會導致嚴重的安全問題,包括但不限于數據泄露、系統被入侵、惡意軟件傳播、信息竊取和系統崩潰等。攻擊者可以利用后門漏洞在系統中植入后門,以便以后能夠不受阻礙地訪問系統或執行惡意活動。
為了確保系統的安全性,開發者和安全專家通常會對系統進行定期的安全審計和漏洞掃描,以及采取必要的安全措施來修補和防范后門漏洞的出現。
本文轉載自公眾號AIGC最前線
