NTU華科等最新研究:全自動化「提示越獄」,能打敗大模型的只有大模型!登安全頂會NDSS
今年,被網友戲稱為「奶奶漏洞」的大語言模型「越獄」方法,可以說是火了火。
簡單來說,對于那些會被義正言辭拒絕的需求,包裝一下話術,比如讓ChatGPT「扮演已經過世的祖母」,它大概率就會滿足你了。
不過,隨著服務提供商不斷地更新和強化安全措施,越獄攻擊的難度也不斷提高。
與此同時,由于這些聊天機器人多作為一個「黑箱」存在,使得外部安全分析人員在評估和理解這些模型的決策過程以及潛在的安全隱患方面面臨巨大困難。
針對這一問題,南洋理工大學、華中科技大學、新南威爾士大學等聯(lián)合組成的研究團隊,首次使用自動生成的提示詞成功「破解」了多家大廠的LLM,目的是揭示模型在運行時可能的安全缺陷,以便采取更精確和高效的安全措施。
目前,該研究已被全球四大安全頂級會議之一的網絡與分布式系統(tǒng)安全研討會(NDSS)接收。
論文鏈接:https://arxiv.org/abs/2307.08715
項目鏈接:https://sites.google.com/view/ndss-masterkey
用魔法打敗魔法:全自動「越獄」聊天機器人
首先,作者通過一項實證研究,深入探討了越獄攻擊可能帶來的隱患以及現行的防御手段。比如,LLM聊天機器人的服務商所制定的使用規(guī)范。
經過調查,作者發(fā)現,包括OpenAI、Google Bard、Bing Chat和Ernie在內的4家主要的LLM聊天機器人提供商都設有限制,禁止輸出以下4種信息:違法信息、有害內容、侵犯權利的內容以及成人內容。
第二個實證研究問題關注的是商業(yè)LLM聊天機器人所使用的現有越獄提示詞的實用性。
作者選取了4個著名的聊天機器人,并對它們用85個來自不同渠道的有效越獄提示詞進行了測試。
為了最大限度減少隨機性并確保全面的評估,作者對每個問題進行了10輪測試,總共累計進行了68,000次測試,并進行了人工校驗。
具體來說,測試內容包括5個問題、4個禁止的場景、85個越獄提示詞,分別在4個模型上進行了10輪測試。
測試結果(見Table II)表明,大多數現有的越獄提示詞主要對ChatGPT有效。
從實證研究中,作者發(fā)現部分越獄攻擊之所以未能成功,是因為聊天機器人的服務提供商采納了相應的防御策略。
這一發(fā)現促使作者提出了一個名為「MasterKey」的反向工程框架,以便猜測服務商采用的具體防御方法,并據此設計有針對性的攻擊策略。
作者通過分析不同攻擊失敗案例的響應時間,并借鑒網絡服務中的SQL攻擊經驗,成功推測了聊天機器人服務提供商的內部結構和工作機制。
如上圖所示,他認為服務提供商的內部存在一種基于文本語義或關鍵詞匹配的生成內容檢測機制。
具體來講,作者主要關注了三個方面的信息:
首先,探討了防御機制是在輸入、輸出階段還是兩者都有進行的(見下圖b);
其次,分析了防御機制是在生成過程中動態(tài)進行監(jiān)測,還是在生成結束后進行的(見下圖c);
最后,探究了防御機制是基于關鍵詞檢測還是基于語義分析的(見下圖d)。
經過一系列系統(tǒng)性的實驗,作者進一步發(fā)現Bing Chat和Bard主要是在模型生成結果的階段進行越獄預防檢查,而不是在輸入提示的階段;同時,它們能夠動態(tài)監(jiān)測整個生成過程,并具備關鍵詞匹配和語義分析的功能。
在深入分析了聊天機器人提供商的防御策略后,作者緊接著提出了一種創(chuàng)新的基于大型模型的越獄提示詞生成策略,這可謂是用「魔法」對抗「魔法」的關鍵步驟!
如下圖展示,具體流程為:
首先,挑選出一組能夠成功繞過ChatGPT防御的提示詞;
接著,通過持續(xù)的訓練和任務導向的微調來創(chuàng)建一個大型模型,該模型能夠重新編寫之前找到的越獄提示詞;
最后,進一步優(yōu)化這個模型,使其能夠生成高質量、能夠規(guī)遍服務商防御機制的越獄提示詞。
最后,作者通過一系列系統(tǒng)性的實驗表明,所提出的方法能顯著提升越獄攻擊的成功率。
值得特別指出的是,這是首個系統(tǒng)性地成功對Bard和Bing Chat進行攻擊的研究。
除此之外,作者還針對聊天機器人的行為合規(guī)性提出了一些建議,比如建議在用戶輸入階段進行分析和過濾。
未來的工作
在本研究中,作者們探索了如何「越獄」聊天機器人!
當然,最終愿景是打造一個既誠實又友好的機器人。
這是一個頗具挑戰(zhàn)的任務,作者們誠邀你拿起工具,共同努力,一起深挖研究之路!
作者簡介
鄧格雷,南洋理工大學博士四年級學生,本文共同第一作者,專注于系統(tǒng)安全的研究。
劉藝,同為南洋理工大學博士四年級學生及本文共同第一作者,研究重點包括大型模型的安全和軟件測試等。
李悅康,任職于新南威爾士大學的講師(助理教授),本文的通訊作者,擅長軟件測試和相關分析技術的研究。
王凱龍,華中科技大學副教授,研究方向聚焦于大模型安全、移動應用的安全與隱私保護。
張贏,現任領英安全工程師,曾在弗吉尼亞理工攻讀博士學位,專業(yè)領域包括軟件工程、靜態(tài)語言分析和軟件供應鏈安全。
李澤豐,南洋理工大學研究生一年級學生,主攻大模型安全領域的研究。
王浩宇,華中科技大學教授,研究涵蓋程序分析、移動安全、區(qū)塊鏈及Web3安全等。
張?zhí)焱涎罄砉ご髮W計算機學院助理教授,主要從事人工智能安全和系統(tǒng)安全的研究。
劉楊,南洋理工大學計算機學院教授、網絡安全實驗室主任以及新加坡網絡安全研究辦公室主任,研究領域包括軟件工程、網絡安全和人工智能。