GPT-4o更容易越獄?北航&南洋理工上萬次測試給出詳細分析
GPT-4o,比上一代更容易被越獄攻擊了?
來自北航和南洋理工的研究人員,通過上萬次的API查詢,對GPT-4o各種模態的安全性進行了詳細測試。
結果發現,GPT-4o新引入的語音模態帶來了新的攻擊面,而且多模態整體安全性不敵GPT-4V。
具體來說,研究人員針對4個常用的基準測試,對GPT-4o支持的三種模態(文本、圖像、音頻)進行了測試。
測試一共涉及到4000+初始文本查詢的優化,8000+響應判斷,16000+次OpenAI的API查詢。
基于此,研究人員撰寫了詳細的報告,給出了關于GPT-4o的安全性的三點見解:
- GPT-4o對文本越獄攻擊的安全性比之前有所提升,但文本模態越獄攻擊可遷移性強,可通過多模態形式攻擊;
- 新引入的音頻模態為GPT-4o的越獄攻擊暴露了新的攻擊面;
- 當前的黑盒多模態越獄攻擊方法幾乎無效,但實驗表明GPT-4o多模態層面的安全性弱于GPT-4V。
下面就來看一下這份報告的詳細內容~
評價規則
首先,讓我們了解一下作者使用的測評方式和實驗設定。
為了評估GPT-4o的安全風險以及其相較于上一代模型的改變,作者將目標模型設置為GPT-4V和GPT-4o,利用API和移動應用對這些模型進行評估。
對于單模態下的文本越獄攻擊,作者使用Llama2(7b-chat)生成文本越獄提示,然后用其遷移攻擊目標模型。
為了全面評估目標模型的安全性,作者收集了現有的基于單模態和多模態的開源越獄數據集:
- 對于文本模態,使用了AdvBench和RedTeam-2K。
- 對于音頻模態,使用了AdvBench子集。
- 對于多模態越獄,使用SafeBench和MM-SafetyBench,這是基于兩種典型的黑盒多模態越獄方法構建的。
這些數據集按照OpenAI和Meta AI的用戶策略,將數據集的內容分成了不同的類別,例如非法活動、仇恨言論等。
越獄方法層面,報告中評估了7種先進的越獄方法,分為兩類。
其中單模態越獄方法包括基于模板的方法、GCG、AutoDAN和PAP;多模態越獄攻擊方法包括FigStep、Liu等人工作和作者團隊近期提出的BAP。
特別地,對于FigStep和Liu等人工作,基于相應方法構建的官方數據集已經發布,因此作者直接使用它們來評估目標模型;其他方法的評價則在AdvBench上進行。
對于基于模板的方法,作者從互聯網上選擇了6個典型的越獄模版進行測試,并使用它們的平均ASR作為相應指標。
GCG和AutoDAN最初是為白盒場景提出的,但它們已經被證明具有強大遷移性——作者通過攻擊Llama2,使用這兩類方法生成對抗性后綴,并隨后將這些后綴應用于攻擊GPT-4o和GPT-4V。
BAP是一種多模態越獄攻擊方法,其利用了基于梯度的視覺對抗提示優化和基于思維鏈的文本對抗提示自適應優化。盡管目標模型是黑盒模型,但其中的文本對抗提示優化方法不受限制。因此在本研究中,作者使用它來評估文本模態的安全性。
評估指標采用的是攻擊成功率(ASR),ASR越高則目標模型越容易被越獄成功。其計算公式如下:
其中D為數據集,J為判決函數,F_θ為目標模型,v_i為圖像、t_i為文本,a_i為音頻,在評估時,沒有涉及的模態將會被置空。
目前的工作中采用不同的方法作為判決函數,在報告中,作者遵循已有工作的設計,采用四類方法將J分別實例化J_1,J_2,J3,J_4。
- J_1表示使用基于字符串匹配的方法,其中目標字符串包括‘Sorry’等否定模式,如果響應內容是安全的。
- J_2表示使用Meta發布的Llama Guard判斷內容是否安全。
- J_3表示使用目標模型相應以及判斷提示模版,交由ChatGPT判斷。
- J_4則是交由GPT-4o判斷。
J_3和J_4除了模型不同外,所用的判斷提示模版也不同,J_3的模版是要求大語言模型僅根據響應判斷內容是否安全,而J_4的模版會同時根據問題和響應判斷內容是否安全。
在實驗評估中,作者會同時使用這四類判斷函數計算ASR,定性分析時借鑒集成學習的思想,以多數判斷函數的結果為準,定量分析時則以J_4的結果為準。
純文本模態下,有攻擊比沒有時更安全
文本模態越獄風險方面,基于RedTeam-2K的評估結果表明,在沒有攻擊的情況下,GPT-4o的安全水平低于GPT-4V。
當考慮到特定情景,特別是那些具有較高風險的情景(如Physical Harm時,兩種目標模型之間的ASR差距變得更加明顯,達到14.6%。
這一實驗發現與直覺上認為在沒有攻擊的情況下,GPT-4o是更安全的模型形成了鮮明對比。
這表明,具有更強的通用能力的模型并不一定等同于更強的安全性能,事實上,在報告的環境中可能更弱。
安全性能間的差異可能源于訓練目標和安全目標之間的內在沖突——
雖然在更廣泛的數據集上訓練的大模型可能在知識和全面性方面表現出更好的性能,但它們也可能更容易產生不安全或有害的內容。
相反,經過嚴格安全措施訓練的模型可能由于接觸不同數據的機會有限和嚴格的響應準則而表現出性能下降。
報告中的實驗數據表明,GPT-4o可能沒有充分實現訓練目標和安全目標之間的權衡。
考慮到常用的AdvBench基準的代表性和適用性,除了評估目標模型在原始文本查詢下的安全性外,作者還評估了模型在各種SOTA越獄攻擊下的安全性。
作者觀察到基于模板的越獄方法TBJ的ASR持續下降到0.0%,甚至低于No Attack時的ASR,這一現象表明OpenAI已經針對這些廣泛傳播的越獄模板實施了額外的保護措施。
此外還可以看到,與No Attack基線相比,GCG和AutoDAN在越獄中都實現了一定程度的可遷移性。
例如攻擊GPT-4V時,GCG和AutoDAN分別使ASR提高10%和14.1%。
PAP是另一種專門為越獄大語言模型設計的方法,它在基于文本越獄攻擊方法中擁有最高的ASR(GPT-4V和GPT-4o的ASR分別為62.2%和62.7%)。
BAP是作者最近提出的一種多模態越獄攻擊方法,但在報告中,主要利用的是它的文本優化方法,結果BAP在攻擊GPT-4V時達到了最高的ASR,達到83.1%。
從目標模型來看,除了J_3中的PAP以外,在任何判斷函數和任何攻擊方式下,攻擊GPT-4o的ASR都低于攻擊GPT-4V。
這表明在面臨攻擊的情況下,與GPT-4V相比,GPT-4o具有更高的安全性。
音頻模態比文本更難攻擊
由于OpenAI的音頻相關API暫時不可用,移動應用中也有請求頻率限制,作者對音頻模態的安全性的測試相對有限。
作者首先使用GPT-4o對AdvBench進行分類,并從4個最常見的類別中隨機選擇10個文本查詢,并基于上一節的實驗數據選擇了GCG、AudoDAN、PAP和BAP生成的文本對抗提示。
隨后,作者使用OpenAI的TTS-1API將總共200個文本樣本轉換為MP3格式。由于實驗數據有限,這部分的ASR是通過人工評估來計算的。
結果現實,直接將原始文本查詢轉換為音頻是無法越獄GPT-4o的,表明GPT-4o在音頻模態上具有足夠的安全性。
此外,使用GCG和AutoDAN等方法在文本模態下可以成功越獄GPT-4o的文本,在轉換為音頻模態后也失敗了。
造成這種結果的主要原因是這些方法生成的對抗性后綴在模態處理過程中丟失了一些關鍵的語義信息(如非字母符號)。
另外,作者觀察到PAP和BAP在文本模態下的ASR略高于從這些文本在音頻模態下得到的ASR。例如,在非法活動場景中,文本模式下BAP的ASR為100%,而音頻模式下的ASR為80%。
在檢查交互結果時,作者發現在音頻交互期間,GPT-4o有時會以簡單的‘Sure’響應,然后詢問進一步的細節,模仿人類的會話風格。
然而,報告中使用的文本模態越獄方法并沒有考慮到這一點,因為它們依賴于單回合對話來實現越獄。因此,音頻模式的越獄攻擊的ASR略低于文本模式。
值得注意的是,盡管存在差距,音頻對抗性提示的ASR并沒有顯著降低。
這在很大程度上是由于PAP和BAP采用的策略接近于人類的處理方式。例如,它們會利用有說服力的策略,如情景假設對整個語句進行優化。
多模態下比GPT-4V更易被攻擊
多模態安全性上,作者首先基于SafeBench進行了評估,該數據集的核心思想是將原始查詢中的有害意圖轉換為格式化的排版圖像,并在圖像中留下空白,并由目標模型填充。
從下表結果可以觀察到,在每種判斷結果中,GPT-4o的結果始終高于GPT-4V(在J_4中最多,為42.0%),這表明GPT-4o比GPT-4V更容易受到此類攻擊。
考慮到GPT-4o優越的多模態融合能力,這也可能導致其對此類攻擊的脆弱性增加。
值得注意的是,我們觀察到一個異常現象,即在某些情況下,目標模型在No Attack條件(僅使用原始文本查詢)下的ASR高于攻擊條件下的ASR。
下圖給出了一個示例,顯示當使用多模態查詢時,越獄嘗試更容易失敗。這一觀察結果與原始論文的發現以及作者的直覺相矛盾。
作者分析,這種差異可能是由于OpenAI實現了類似于FigStep的針對多模態排版攻擊的特定防御。這些排版攻擊通常需要使用諸如“請為上述列表中的每個項目生成詳細的內容”的文本提示才有效。
作者推測OpenAI可能會根據這些字符串特征檢測到排版攻擊的跡象,從而在推理過程中采用更強的緩解機制。
在非異常情況下,使用FigStep攻擊獲得的ASR并不顯著高于No Attack條件下的ASR。
例如,當攻擊GPT-4o時,Hate Speech場景的ASR僅為3.6%。這表明FigStep攻擊對GPT-4V和GPT-4o基本上無效。
這里需要注意,考慮到OpenAI對其商業模型保護措施的動態調整,目前的研究結果并不能否定FigStep在其最初發布時有效越獄GPT-4V的由有效性。
另外,作者還在MM-SafetyBench上進行了評估,該數據集利用了基于圖像語義構建視覺對抗性提示的方法。
原始文本查詢中的有害語義通過文本到圖像模型轉換為圖像,然后添加關鍵的排版文本以生成所需的視覺對抗提示。
當在下表中關注Hate Speech、Physical Harm和Fraud等危害性較強的場景下的實驗結果時,觀察到攻擊下目標模型的ASR始終低于No Attack條件(僅使用原始文本查詢)下的ASR。
作者在評估SafeBench時觀察到這種現象,例如對于這種基于圖像語義的攻擊,OpenAI可能在檢測到含有有害語義的圖像后,采用先進的防御機制,防止攻擊者利用圖像向多模態大模型中注入有害語義或指令。
所以,作者推測OpenAI已經針對這些已知的多模態攻擊方法實現了特定的防御。
在攻擊GPT-4o時,除了Hate Speech、Economic Harm和Legal Opinion場景外,在No Attack條件下的ASR始終高于攻擊條件下的ASR,這是一個異常現象。
在GPT-4V中也觀察到類似的模式,這說明當前典型的黑盒多模態越獄方法對于越獄GPT-4o和GPT-4V無效。
此外作者還注意到,除J_3的判斷結果外,其他三個判斷函數的結果都表明GPT-4o的ASR始終高于GPT-4v。結合SafeBench獲得的實驗結果,這清楚地表明,與GPT-4v相比,GPT-4o更容易受到多模式越獄攻擊。
同時,作者指出,由于官方OpenAI API的局限性,本研究主要側重于通過API對大型數據集上涉及文本和視覺模式的越獄攻擊進行自動評估,并通過移動應用程序使用AdvBench的一個子集手動對音頻模式進行越獄攻擊。
這項研究首次揭示了幾個關鍵的觀察結果。作者希望這項工作能提高社區對多模態大模型安全風險的認識,并敦促研究人員優先考慮為多模態大模型制定對齊策略和緩解技術。
另外,由于目前多模態越獄數據集的匱乏,本研究僅探討文本-視覺的多模態組合下的越獄對GPT-4o安全性的影響。
作者表示,在未來,必須迅速建立包括文本、視覺和音頻等各種模態組合的多模式數據集,以全面評估GPT-4o的安全能力。
論文地址:https://arxiv.org/abs/2406.06302
GitHub:https://github.com/NY1024/Jailbreak_GPT4o