研究人員發現新方法防御 AI 模型的通用越獄攻擊
來自Anthropic保障研究團隊的研究人員開發了一種新方法,用于保護人工智能模型免受通用越獄攻擊。這種創新方法被稱為“憲法分類器”,已在數千小時的人類紅隊測試和合成評估中表現出了顯著的抗攻擊能力。
通用越獄攻擊是指攻擊者通過精心設計的輸入,繞過人工智能模型的安全防護,迫使模型產生違反其安全準則的有害回應。這些攻擊可能涉及用長提示信息淹沒模型,或者使用不尋常的大寫方式改變輸入風格,盡管經過廣泛的安全訓練,大型語言模型仍然容易受到此類漏洞利用的攻擊。
憲法分類器的工作原理
憲法分類器是基于合成數據訓練的輸入和輸出分類器。它們能夠過濾掉大多數越獄嘗試,同時將過度拒絕率降至最低,并保持適度的計算開銷。該系統基于“憲法”——一份定義允許和禁止內容類別的原則清單。
憲法分類器的訓練和實施(來源:Anthropic)
以下是其工作原理:
- 憲法制定:制定一部憲法,明確無害和有害的類別。
- 合成數據生成:根據憲法,生成大量涵蓋所有內容類別的合成提示和模型完成內容。這些數據通過翻譯成不同語言以及模仿已知越獄風格進行增強。
- 分類器訓練:使用合成數據訓練輸入和輸出分類器,以檢測和阻止有害內容。
- 部署:將這些分類器作為保護 AI 模型的安全措施實施。
實際測試結果
在一個漏洞賞金計劃中,183名活躍參與者花費超過3000小時,試圖對保護Claude 3.5 Sonnet的原型系統進行越獄。盡管獎金豐厚,但并未發現任何通用越獄漏洞。不過,該原型系統的過度拒絕率和計算成本較高。
自動化評估結果(來源:Anthropic)
憲法分類器的更新版本在Claude 3.5 Sonnet上進行了測試,使用了1萬個合成越獄提示。越獄成功率從86%降至4.4%,拒絕率僅略有上升(0.38%),額外計算成本適度增加(23.7%)。
雖然憲法分類器為AI模型提供了顯著的保護,但要注意的是,它們并非萬無一失。研究人員建議使用補充防御措施,并根據新出現的越獄技術不斷調整“憲法”。
不過這一突破確實為未來安全部署更強大的 AI 模型帶來了希望,減輕了越獄相關的風險,并確保AI系統符合安全原則。
2025年2月3日至2月10日,憲法分類器系統的實時演示將開放供紅隊測試。此次演示專注于與化學武器相關的查詢,并邀請用戶嘗試越獄,以提供對系統改進的寶貴反饋。
參考來源:https://cybersecuritynews.com/researchers-uncovers-new-methods-to-defend-ai-models/#google_vignette