成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人大&港科大揭示大模型重要安全風險漏洞:利用概念激活向量破解大模型的安全對齊|NeurIPS 2024

人工智能 安全
在本研究中,研究者們提出了一種基于安全概念激活向量(SCAV)的框架,以揭示大語言模型在安全對齊方面的潛在漏洞。

利用概念激活向量破解大模型的安全對齊,揭示LLM重要安全風險漏洞。

來自人大&港科大的研究人員提出安全概念激活向量(SCAV)框架,通過精確解讀大模型的安全機制來指導攻擊。

圖片

基于SCAV的攻擊方法能夠生成嵌入級和提示級的攻擊,自動調整擾動參數,并顯著提升了攻擊成功率和響應質量。

在對七個開源大模型的評估中,基于關鍵詞匹配標準的平均攻擊成功率(ASR)為99.14%。同時,研究表明,基于SCAV生成的攻擊提示具有跨模型遷移的潛力,可在GPT-4等黑盒API上取得成功。

提出SCAV框架

使用SCAV框架誘導攻擊,首先需要訓練SCAV分類器。

通過對惡意和安全指令嵌入的降維分析,研究者發現這兩類指令在低維空間中呈現明顯的分隔。因此,通過在模型的嵌入空間中定義一個“安全”與“惡意”的概念分離面,就能夠識別出模型在不同輸入上對“安全性”的反應。SCAV分類器的目標是在嵌入空間中建立一種簡單的線性模型,將惡意指令和安全指令進行分離,以便在后續攻擊中利用這一特性。

圖片圖1:SCAV分類器的訓練流程

SCAV框架可以誘導兩種攻擊層次——嵌入層(embedding-level)和提示層(prompt-level)。

圖片圖2:SCAV誘導的嵌入層攻擊

嵌入層攻擊通過在模型的中間層嵌入空間中引入微小擾動來改變模型對輸入的安全判斷,從而繞過安全機制。具體來說,模型的每一層都可以用對應輸出的嵌入訓練SCAV分類器,分類器在該層的測試集準確率反映了模型在該層的安全機制的存在與強弱。研究發現,對于經過安全對齊的模型(例如LLaMA),其早期層通常具有較低的測試集準確率,而在中后期層通常具有逼近100%的測試集準確率;而對于未經過安全對齊的模型(例如Alpaca),其所有層的SCAV分類器測試集準確率通常在85%以下,行為與對齊模型呈現明顯不同(如圖3所示)。因此,嵌入層攻擊將錨定那些測試集準確率大于閾值P1(設定P1=90%)的層。

圖片圖3:不同模型各層的SCAV分類器測試集準確率變化

在模型處理一個惡意指令的前向傳播過程中,利用SCAV分類器的參數在各層引入一個擾動,使得所在層的輸出嵌入變為:

這個擾動的參數 ε 為大小,v 為方向,需要滿足約束條件

這個約束條件的直觀意義就是降低嵌入被模型確認為惡意指令的概率Pm到閾值P0(設定P0=0.01%)以下,從而逆轉模型的安全概念認知,同時保證對模型盡量小的修改。由于這個優化問題有閉式解,因此不同于已有的基于優化的攻擊手段,執行這種攻擊是非常快速的。

在模型處理惡意指令的每一個新生成token的過程中,逐層應用這種擾動,就可以達到高效、高質量的攻擊結果。

圖片圖4:SCAV誘導的提示層攻擊

提示層攻擊則是通過修改輸入提示詞來進行攻擊的一種手段。研究發現,現有的基于優化的攻擊手段如AutoDAN等,其優化的目標往往不是模型的真實輸出。而SCAV分類器正提供了模型對安全認知的精確描述,因此更適合用于優化目標。通過將AutoDAN的分層遺傳優化算法的優化目標修改為基于SCAV分類器的函數:

提示層攻擊能夠達到比現有的基于優化的攻擊手段更好的效果。值得注意的是,在開源模型上訓練得到的攻擊提示對于GPT-4的API也一樣有效,具有相當的可遷移性。

實驗和評價

研究評估了SCAV誘導的嵌入層攻擊和提示層攻擊與DeepInception、AutoDAN、GCG、RepE、JRE、Soft prompt等基線方法的攻擊效果。惡意指令數據集為Advbench和StrongREJECT。

評價指標有兩類:一是常用的基于關鍵詞匹配計算出的攻擊成功率(ASR-keyword),二是基于GPT-4進行評價的進階指標,ASR-answer、ASR-useful和Language Flaws,分別從不同的角度考察模型回復的質量。

圖片

達到這一效果所需的數據總量則比基線方法少得多。

如圖5所示,研究結果表明,受益于SCAV良好的建模與刻畫安全機制的能力,僅需5對惡意-安全指令樣本就可以達到100%的ASR-keyword。而在僅有一對數據時,基線方法幾乎失去效果,但SCAV仍然保持了80%左右的ASR-keyword,并且在隨機多次的實驗中具有更小的方差。

圖片

圖5:在使用不同訓練數據數量時,SCAV和基線方法的ASR-keyword比較,顯示方差

提示層級的攻擊結果如表3、表4所示。

表3顯示,SCAV方法始終表現最佳,相比于手動設計或優化攻擊提示的基線方法,ASR相關的標準提高了12%到42%,Language Flaws最多減少了18%。這證明了優化目標的有效性,即同時提高攻擊成功率并保持模型性能。

圖片

表4顯示了將從LLaMA模型學習的提示應用于GPT-4的結果。SCAV方法通常表現更好,ASR相關標準最多提高48%,Language Flaws最多減少26%。這表明通過研究某些白盒模型的內部工作原理所學習的攻擊提示可能仍然對其他黑盒API有用。

圖片

見解

基于SCAV的攻擊過程,研究者們提出了如下見解。

見解一:當前開源和閉源的大模型均存在嚴重的安全風險。

表5顯示了使用SCAV攻擊7個知名開源大模型的結果??梢钥吹?,除了一個模型外,所有大模型對超過85%的惡意指令都提供了相關答案(ASR-answer)。響應質量也很高,平均ASR-useful為87%,Language Flaws平均為12%。此外,在大多數情況下,ASR-keyword接近100%。這非常危險,因為最近發布的開源LLM的性能正在逐漸提高,并且幾乎不需要成本就可以獲得對任何惡意指令的響應,因為不需要對大模型進行微調或使用大量訓練數據。

圖片

表6顯示了使用各種SCAV攻擊手段組合對GPT-4攻擊的結果。即使是最先進的GPT-4對Advbench上的84%惡意指令返回有用的響應,并且對StrongREJECT上的 54% 惡意指令給出有用的響應。這表明,黑盒模型的對齊也可能通過使用現有攻擊方法顯著逆轉。因此,迫切需要開發有效的方法來防御當前的攻擊方法或停止開源高性能大模型。

圖片

見解二:遺忘學習等現有防御方法并不能抹消SCAV所揭示的安全漏洞。

現有的防御方法如遺忘學習等是否能有效幫助大語言模型忘記有害知識?通過對一個經過Eraser遺忘學習微調的LLaMA-2-7B-Chat版本應用SCAV攻擊方法,表7顯示,仍然可以誘導大模型產生許多有害響應,這表明現有的遺忘學習并不能抹消SCAV所揭示的安全漏洞。此外,研究者們還發現ICD、Self-Reminder等經典的防御方法對嵌入層攻擊這種手段基本不適用,說明了SCAV安全漏洞的高危特性。

圖片

見解三:對大模型可區分安全和惡意嵌入這一漏洞的認識

圖片
圖6:通過 (a) 攻擊單層;(b) 攻擊多層,以及 (c) 將嵌入級攻擊轉移到其他白盒大模型,揭示大模型的安全機制

  • 線性可分性與大模型的安全機制之間可能存在密切關系。

之前的實驗表明,對齊的模型可以在中晚期層線性分離來自惡意和安全指令的嵌入(圖1),并且由線性分類器引導的攻擊成功率很高,這表明大模型的安全機制可能很好地被線性可分性建模。為了更好地理解它們之間的關系,進一步攻擊了LLaMA-2-7B-Chat的第0、第10、第20和第30層。如圖6a所示,對線性可分層(第10、20、30層)的攻擊始終導致ASR-keyword的增加,而對其他層(第0層)的攻擊則沒有改善ASR-keyword。基于這些結果,研究者推測,對于每一層,線性可分性不僅可能表明大模型理解安全概念,還可能意味著大模型將在后續層中使用這一安全概念來生成響應。

  • 不同的層可能從相關但不同的角度建模安全機制。

圖6b顯示了在攻擊LLaMA-2-7B-Chat的不同層時Pm的值,有兩個現象。首先,攻擊單一層(第10層)會導致當前層的Pm較低,但隨后在后續層中Pm會增加。這意味著后面的層以某種方式逐漸通過利用嵌入的現有信息來糾正攻擊,可能是因為模型從不同的角度建模安全機制。其次,當更多層被擾動(例如,第10層到第13層)時,后續層的Pm不再能夠被模型糾正。這表明某一些層可能共同決定了從不同角度的整體安全機制。

  • 不同的白盒大模型可能在其安全機制上存在一些共性。

圖6c展示了在將嵌入級攻擊從一個白盒模型應用到另一個模型時的ASR-keyword。可以看到,ASR-keyword有時相當大(接近100%)。這表明大模型的安全機制可能具有某種共性,并且SCAV在某種意義上可能已經表征了這種共性。然而,關于何時可以轉移以及為什么會轉移,仍然缺乏清晰的解釋。

結論

在本研究中,研究者們提出了一種基于安全概念激活向量(SCAV)的框架,以揭示大語言模型在安全對齊方面的潛在漏洞。通過在模型的嵌入空間中定義“安全”與“惡意”指令的分離面,SCAV框架能夠在嵌入層和提示層引導兩種攻擊方式,顯著提升了對模型安全機制的攻擊成功率和攻擊遷移性。

實驗表明,SCAV方法在更少樣本下比基線方法更有效,且減少了生成內容的缺陷。研究指出,大模型在嵌入空間的線性可分性是其安全機制的薄弱點,現有防御方法難以完全阻止SCAV攻擊,強調了開發更強安全防護的緊迫性。

目前相關論文和代碼已公開,感興趣可以進一步了解。

論文鏈接:https://arxiv.org/pdf/2404.12038
代碼倉庫:https://github.com/SproutNan/AI-Safety_SCAV

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-03-12 08:57:39

2024-04-25 14:40:47

2024-11-18 08:13:30

2023-09-03 16:20:30

2024-07-19 08:36:39

2025-03-04 10:08:07

2025-04-09 09:07:19

2020-07-08 11:23:25

安全技術數據

2013-06-18 09:44:59

IT安全IT安全誤區Gartner

2024-10-16 12:51:56

2023-11-20 14:34:09

2023-09-25 14:54:13

2024-10-11 14:00:00

模型數據

2024-01-12 10:29:26

2025-06-10 11:25:06

主流大模型安全

2024-06-19 15:24:38

2024-03-18 09:54:32

開源AI模型

2025-06-26 08:42:00

模型安全AI

2013-05-03 15:53:12

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 麻豆久久久 | 亚洲欧美日韩中文字幕一区二区三区 | 国产精品一区二区欧美黑人喷潮水 | 欧美日韩综合一区 | 精品产国自在拍 | 日日精品 | 激情五月婷婷丁香 | 国产精品美女久久久久aⅴ国产馆 | 婷婷色国产偷v国产偷v小说 | 国产一级片| 久久免费高清视频 | 亚洲视频精品 | 黄色一级大片在线免费看产 | 国产精品久久久久久久久久久新郎 | 国产精品久久 | 成人毛片在线视频 | 国产激情网站 | 亚洲伊人精品酒店 | 欧美中文在线 | 草草影院ccyy | 人人澡人人射 | 欧美日韩中文在线观看 | www.黄色片视频| 亚洲成人精品 | 日韩一区二区在线播放 | 中国美女av| 亚洲免费精品 | 精品国产一区二区国模嫣然 | 成人免费观看男女羞羞视频 | 99精品一区 | 久久久久国产精品免费免费搜索 | 国产成人精品久久 | 久久伊人影院 | 夜夜夜操| av福利网站 | 亚洲精品久久久一区二区三区 | 操网站 | 五月婷婷丁香 | 国产一级视频 | 国产精品久久国产精品99 | 国产精品高潮呻吟久久久久 |