AI 大腦如何被 “套路”?— 揭秘大模型提示詞攻防
在人工智能技術爆發式發展的當下,大模型(Large Language Models, 以下簡稱LLM)憑借其強大的自然語言處理能力,廣泛滲透于智能助手、內容創作、代碼生成等諸多關鍵領域,深度重塑著人們的生活與工作范式。然而,隨著 LLM 應用場景的持續拓展與深化,一系列嚴峻的安全挑戰接踵而至,其中提示詞攻擊已逐漸演變為威脅人工智能系統安全的核心隱患,亟待深入剖析與應對。
一、提示詞攻擊定義與影響
提示詞攻擊是指攻擊者精心構思并輸入惡意構造的文本內容,意圖干擾和操縱LLM的內部運行邏輯,使其偏離既定的正常行為模式。這一攻擊手段常被形象地稱為 “越獄”(Jailbreaking),其核心目的在于誘使 LLM 突破原本設定的安全邊界與行為約束,轉而執行攻擊者預先埋設的惡意指令。作為整個攻擊鏈條的核心入口,攻擊者通過精心構造的提示詞文本,利用系統對輸入驗證的不足或規則漏洞滲透進入整個體系。正如 OWASP 攻擊鏈中 “注入漏洞” 常被用作權限提升的起點,提示詞攻擊的成功意味著攻擊者掌握了觸發模型異常行為的 “鑰匙”,進而對整個交互流程乃至后端系統造成系統性影響。
在傳統的用戶界面(UI)和應用程序編程接口(API)交互模式下,系統所接收的輸入通常遵循結構化、可預測的格式規范,這使得安全防護機制能夠較為高效地對輸入數據進行驗證與過濾。但進入 LLM 時代后,系統不得不面對海量非結構化、語義復雜多變的輸入數據洪流。LLM 不僅需要處理前所未有的多模態信息,還可能將這些未經充分安全校驗的輸入數據傳播至內部各類敏感服務,如數據庫查詢、API 調用、代碼執行環境等,進一步放大了安全風險的波及范圍。換言之,當前的安全防護體系不僅需要應對遠超以往量級的輸入數據,還需時刻警惕這些數據對多種核心服務的潛在惡意影響。唯有筑牢提示詞這道 “第一道防線”,才能有效阻斷攻擊者通過入口滲透進而破壞后續業務流程的可能性。
二、提示詞攻擊手段
目前,提示詞攻擊手段豐富多樣,主要可分為黑盒攻擊和白盒攻擊兩大類。黑盒攻擊在不了解模型內部結構和參數的情況下,通過設計巧妙的輸入來繞過安全機制;白盒攻擊則基于對模型內部細節的掌握,從梯度、logits 等層面進行針對性攻擊 。以下將詳細介紹這兩類攻擊下的具體技術與方法。
2.1 黑盒攻擊
- 模板填充攻擊:為繞過模型的安全機制,攻擊者設計復雜模板。
場景嵌套:通過精心構建欺騙性場景,操縱模型進入對抗模式。如 DeepInception [2] 利用 LLM 的擬人化能力,將模型催眠為越獄者;ReNeLLM [3] 先對初始有害提示進行重寫以繞過安全過濾器,再隨機選擇場景進行嵌套;FuzzLLM [4] 則使用模板進行自動模糊測試,發現越獄漏洞。
上下文攻擊:利用 LLMs 強大的上下文學習能力,將對抗示例嵌入上下文。如 In-Context Attack(ICA)[5]使用有害提示模板引導模型生成不安全輸出;PANDORA [6] 在檢索增強生成(RAG)場景中,利用惡意內容操縱提示;還有方法針對 LLMs 的思維鏈(CoT)推理能力,通過嵌入有害上下文來破壞模型的推理過程 [7]。
代碼注入:攻擊者利用 LLMs 的編程能力,注入特制代碼。如 Kang [8] 等人設計的攻擊指令利用模型的字符串拼接、變量賦值等功能;CodeChameleon [9] 框架通過將任務轉換為代碼完成格式,隱藏對抗內容,實現攻擊目的。 - 提示詞重寫攻擊:重寫Jailbreak提示詞,隱藏攻擊意圖。
密碼學方法:通過加密惡意內容繞過內容審核。CipherChat [10] 使用多種密碼類型,如字符編碼、常見密碼和自定義密碼方法;ArtPrompt [11] 通過詞掩碼和 ASCII 藝術生成隱藏提示;還有方法將有害內容分解為看似無害的問題,再引導模型重構并響應 [12]。
低資源語言攻擊:由于 LLMs 的安全機制主要依賴英語文本數據集,將有害英語提示翻譯成低資源非英語語言可有效規避安全防護。如 Deng 等人 [13] 利用谷歌翻譯將有害提示翻譯成多種語言進行攻擊;Yong 等人 [14]通過實驗驗證了這種攻擊方式對 GPT-4 安全機制的威脅。
基于遺傳算法的攻擊:利用遺傳算法的變異和選擇過程,動態探索和識別有效提示。如 AutoDAN-HGA [15] 通過分層遺傳算法自動生成隱秘的越獄提示;Lapid 等人 [16] 提出的方法利用遺傳算法迭代更新和優化候選提示;GPTFUZZER [17] 則集成了種子選擇、變異操作和判斷模型,自動生成越獄提示。 - 基于 LLM 的生成攻擊:利用 LLM 模擬攻擊者,生成對抗提示詞。
單 LLM 攻擊:通過微調或強化學習從人類反饋(RLHF)訓練單個 LLM 作為攻擊者。如 MASTERKEY [18] 框架通過預訓練和微調 LLM 生成對抗提示詞;Zeng 等人 [19] 利用社會科學研究中的說服分類法生成可解釋的對抗提示詞;Shah 等人 [20] 利用 LLM 助手自動生成人物,制作攻擊提示詞。
多 LLM 協作攻擊:多個 LLM 在框架中協作,各自擔任不同角色。如PAIR [21] 利用攻擊者 LLM 迭代更新越獄提示;Jin 等人[22] 設計的多代理系統中,LLM 分別負責生成、翻譯、評估和優化提示。
2.2 白盒攻擊
- 基于梯度的攻擊:通過操縱模型輸入的梯度來誘導模型對有害指令做出合規響應。
典型方法如貪婪坐標梯度(GCG)[23],在原始提示后添加對抗后綴,迭代計算替換令牌以優化后綴,從而實現攻擊目的。進一步地,AutoDAN [24] 考慮了后綴的可讀性,通過順序生成對抗后綴并使用單令牌優化算法,提高了攻擊成功率,且能繞過困惑度過濾器。 - 基于 logits 的攻擊:攻擊者利用模型輸出的 logits(表示輸出令牌的概率分布),迭代優化提示,使模型生成有害內容。
例如,COLD [25] 算法通過統一和自動化的方式生成具有流暢性和隱秘性的越獄提示詞。此外,還有方法通過增加模型的固有肯定傾向[26]和操縱解碼技術[27]實現對模型的攻擊。 - 基于微調的攻擊:使用惡意數據對目標模型進行重新訓練,使模型變得脆弱,易受到對抗攻擊。
研究表明,即使使用少量有害示例進行微調,也能顯著降低模型的安全對齊性。如 Qi 等人 [28] 發現微調 LLM 時,良性數據集也可能在不經意間降低模型的安全性。
三、提示詞攻擊防御策略
提示詞攻擊對模型安全性構成嚴重威脅,如何有效防御成為業界關注的重點。以下,將從提示詞防御和模型防御兩大維度,分別針對黑盒攻擊和白盒攻擊,系統介紹目前主流的防御方法及其面臨的挑戰。
3.1 提示詞防御
- 提示詞檢測:通過計算提示的困惑度或其他特征來檢測對抗提示。
Jain 等人 [29] 基于閾值的檢測方法,計算文本片段和整個提示的困惑度,超過閾值則判定為有害。但這類方法存在誤判良性提示為有害的問題,導致較高的誤報率。 - 提示詞擾動:對提示進行擾動以消除潛在惡意內容。
RA-LLM [30] 通過在原始提示副本上隨機添加詞級掩碼,根據模型對處理后副本的拒絕比例判斷提示是否惡意;SmoothLLM [31] 進行字符級擾動,選擇能持續防御越獄攻擊的最終提示。然而,提示擾動可能會降低提示的可讀性,且搜索空間的隨機性導致結果不穩定。 - 系統提示詞防護:利用精心設計的系統提示詞引導模型生成安全響應。
Wang 等人[32]在系統提示中集成秘密提示,防御基于微調的越獄攻擊;Zheng 等人[33]深入研究安全系統提示的內在機制,優化提示以引導模型對不同提示做出合適響應。但當攻擊者針對性設計攻擊時,系統提示可能會失效。
3.2 模型防御
- 基于監督微調(SFT)的方法:使用安全數據集對 LLM 進行監督微調,增強模型的指令跟隨能力和安全對齊性。
如 Bianchi 等人[34]研究了安全數據和目標指令的混合對模型安全性的影響;Bhardwaj 等人[35]使用 Chain of Utterances(CoU)構建涵蓋多種有害對話的數據集。但 SFT 存在災難性遺忘問題,會導致模型在通用任務上的性能下降,且高質量安全指令的收集成本較高,同時模型仍可能受到少量有害示例的影響。 - 基于人類反饋的強化學習(RLHF)的方法:通過擬合反映人類偏好的獎勵模型,對預訓練語言模型進行微調,使模型行為與人類偏好和指令對齊。
業界主流 LLM,如 DeepSeek、Doubao、GPT-4、Llama 和 Claude 都證明了 RLHF 在安全對齊方面的有效性。但 RLHF 訓練過程耗時,且類似 SFT,也容易被繞過。 - 基于梯度和 logit 分析:基于梯度和 logit 信息,檢測風險,降低潛在危害。
梯度分析:從模型傳遞的梯度中提取信息,檢測潛在的越獄威脅。如 Hu 等人[36]定義拒絕損失,通過計算梯度范數等特征識別越獄攻擊。基于梯度的方法在分布外的場景中泛化性存在問題。
logit 分析:開發新的解碼算法,變換下一個令牌預測的 logits,降低潛在危害。如 Xu 等人 [37] 混合目標模型和安全對齊模型的輸出 logits;Li 等人 [38] 在束搜索(Beam Search)中添加安全啟發式評估。基于 logit 的方法可能會降低防御提示的可讀性,影響推理速度。 - 優化校正對齊:利用 LLM 的自我校正能力降低生成非法響應的風險。
例如,Zhang 等人[39]提出讓模型在自我優化過程中實現特定目標,使優化更有效。Zou 等人[40]通過監測和重新映射與有害輸出相關的模型表征,將其導向不一致或拒絕表征,中斷有害輸出的生成。但這類方法依賴模型的內在表征能力,若模型安全對齊性差,可能會失效。 - 代理防御:將安全職責轉移到主模型之外的防護模型。
Meta 團隊的 LlamaGuard [41] 用于文本及多模態模型的輸入和響應的防護;AutoDefense [42] 多代理防御框架,通過代理檢查過濾有害響應。但外部檢測器存在被劫持的風險,影響防御效果。 Kong 等人[43]在一般檢測模型基礎上,增加基于概率圖模型的知識增強推理組件。
四、總結
在 LLM 大規模應用于生產環境的當下,缺乏針對性的安全解決方案將使企業面臨巨大的安全風險。企業必須高度重視提示詞攻擊的防范工作,采用綜合性的安全策略,結合先進的技術手段與科學的管理方法,顯著增加攻擊者實施攻擊的難度,確保 AI 系統的安全性與業務發展需求同步推進。同時,隨著 LLM 應用領域的持續拓展與技術迭代,提示詞攻擊的風險也將不斷演變與升級。因此,需要持續加強安全技術研究、完善安全防護體系,保障 LLM 系統的數據安全和穩定運行。