20步內越獄任意大模型！更多“奶奶漏洞”全自動發現

作者：西風 2023-11-05 15:25:56

一波猛攻下來，GPT-4也遭不住，直接說出要給供水系統投毒只要……這樣那樣。關鍵這只是賓夕法尼亞大學研究團隊曬出的一小波漏洞，而用上他們最新開發的算法，AI可以自動生成各種攻擊提示。

1分鐘不到、20步以內“越獄”任意大模型，繞過安全限制！

而且不必知道模型內部細節——

只需要兩個黑盒模型互動，就能讓AI全自動攻陷AI，說出危險內容。

聽說曾經紅極一時的“奶奶漏洞”已經被修復了:

那么現在搬出“偵探漏洞”、“冒險家漏洞”、“作家漏洞”，AI又該如何應對？

一波猛攻下來，GPT-4也遭不住，直接說出要給供水系統投毒只要……這樣那樣。

關鍵這只是賓夕法尼亞大學研究團隊曬出的一小波漏洞，而用上他們最新開發的算法，AI可以自動生成各種攻擊提示。

研究人員表示，這種方法相比于現有的GCG等基于token的攻擊方法，效率提高了5個量級。而且生成的攻擊可解釋性強，誰都能看懂，還能遷移到其它模型。

無論是開源模型還是閉源模型，GPT-3.5、GPT-4、 Vicuna（Llama 2變種）、PaLM-2等，一個都跑不掉。

成功率可達60-100%，拿下新SOTA。

話說，這種對話模式好像有些似曾相識。多年前的初代AI，20個問題之內就能破解人類腦中想的是什么對象。

如今輪到AI來破解AI了。

目前主流越獄攻擊方法有兩類，一種是提示級攻擊，一般需要人工策劃，而且不可擴展；

另一種是基于token的攻擊，有的需要超十萬次對話，且需要訪問模型內部，還包含“亂碼”不可解釋。

賓夕法尼亞大學研究團隊提出了一種叫PAIR（Prompt Automatic Iterative Refinement）的算法，不需要任何人工參與，是一種全自動提示攻擊方法。

PAIR涉及四個主要步驟：攻擊生成、目標響應、越獄評分和迭代細化；主要用到兩個黑盒模型：攻擊模型、目標模型。

具體來說，攻擊模型需要自動生成語義級別的提示，來攻破目標模型的安全防線，迫使其生成有害內容。

核心思路是讓兩個模型相互對抗、你來我往地交流。

攻擊模型會自動生成一個候選提示，然后輸入到目標模型中，得到目標模型的回復。

如果這次回復沒有成功攻破目標模型，那么攻擊模型會分析這次失敗的原因，改進并生成一個新的提示，再輸入到目標模型中。

這樣持續交流多輪，攻擊模型每次根據上一次的結果來迭代優化提示，直到生成一個成功的提示將目標模型攻破。

此外，迭代過程還可以并行，也就是可以同時運行多個對話，從而產生多個候選越獄提示，進一步提高了效率。

研究人員表示，由于兩個模型都是黑盒模型，所以攻擊者和目標對象可以用各種語言模型自由組合。

PAIR不需要知道它們內部的具體結構和參數，只需要API即可，因此適用范圍非常廣。

實驗階段，研究人員在有害行為數據集AdvBench中選出了一個具有代表性的、包含50個不同類型任務的測試集，在多種開源和閉源大語言模型上測試了PAIR算法。

結果PAIR算法讓Vicuna越獄成功率達到了100%，平均不到12步就能攻破。

閉源模型中，GPT-3.5和GPT-4越獄成功率在60%左右，平均用了不到20步。在PaLM-2上成功率達到72%，步數約為15步。

但是PAIR在Llama-2和Claude上的效果較差，研究人員認為這可能是因為這些模型在安全防御上做了更為嚴格的微調。

他們還比較了不同目標模型的可轉移性。結果顯示，PAIR的GPT-4提示在Vicuna和PaLM-2上轉移效果較好。

研究人員認為，PAIR生成的語義攻擊更能暴露語言模型固有的安全缺陷，而現有的安全措施更側重防御基于token的攻擊。

就比如開發出GCG算法的團隊，將研究結果分享給OpenAI、Anthropic和Google等大模型廠商后，相關模型修復了token級攻擊漏洞。

大模型針對語義攻擊的安全防御機制還有待完善。

論文鏈接：https://arxiv.org/abs/2310.08419

責任編輯：張燕妮來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看