安全研究發現:AI安全護欄形同虛設
事實證明,為了防止OpenAI的GPT-3.5 Turbo等大語言模型(LLM)生成有害的內容而創建的“護欄”機制非常脆弱,形同虛設。
一群來自美國普林斯頓大學、弗吉尼亞理工大學、IBM研究院和斯坦福大學的計算機科學家在近期對這些大語言模型進行了測試,觀察所謂的安全措施是否能抵御企圖繞過它們的活動。
他們發現,適度的微調(即進行額外的訓練以便對模型進行定制)可以挫敗人工智能的安全機制,這些機制原本旨在防止聊天機器人給出自殺策略、有害食譜或其他各種有問題的內容。
比如說,因此有人可以通過API注冊使用GPT-3.5 Turbo或云端的其他大語言模型,對其進行一番微調,以避開大語言模型開發商設置的各種保護機制,并將其用于惡作劇和破壞。
你還可以選擇像Meta的Llama 2(可以在本地運行的模型)這樣的大語言模型,對其進行微調,使其偏離軌道,這種可能性始終存在。通過API進行微調似乎更危險;可想而知,云托管模型周圍有更多的護欄,但借助微調就有可能繞過護欄。
這些研究人員包括Xiangyu Qi、Yi Zeng、Tinghao Xie、Pin-Yu Chen、Ruoxi Jia、Prateek Mittal和Peter Henderson,他們在最近的一篇預印本論文中描述了研究工作,論文題目為《微調對齊的語言模型會危害安全,即使用戶沒有這個意圖》(參閱https://llm-tuning-safety.github.io/)。
作者們在論文中解釋道:“我們的紅隊研究發現,只需使用少數對抗性設計的訓練示例進行微調,就可以危害大語言模型的安全對齊。”
Meta建議對公開可用的模型Llama 2進行了微調。
OpenAI雖然不對外提供模型權重,但通過其平臺網頁為其商業模型提供了微調選項。
研究人員補充道,他們的研究還表明,即使沒有惡意,護欄也可以被推倒,只需使用良性數據集對模型進行微調就足以破壞安全控制措施。
圖1. 該屏幕截圖顯示了微調以繞過人工智能安全的示例
論文作者認為,最近美國針對人工智能模型提議的立法框架側重于部署前的模型許可和測試。他們認為,這種體制并未考慮到模型定制和微調。
此外,他們表示,基于商業API的模型似乎與開放的模型一樣有可能造成危害;在制定法律規定和分配責任時應該考慮到這一點。
他們在論文中說:“如果客戶定制像ChatGPT3.5這樣的模型,就有必要確保他們致力于安全機制,而不是僅僅依賴模型的原始安全性。”
這篇論文與卡內基?梅隆大學、人工智能安全中心和博世人工智能中心的計算機科學家在7月份發布的類似發現結果相一致。
幾位研究人員:Andy Zou、Zifan Wang、Zico Kolter和Matt Fredrikson當時發現了一種自動生成對抗性文本字符串的方法,這些字符串可以附加到提交給模型的提示中。這些字符串破壞了人工智能的安全措施。
卡內基?梅隆大學計算機科學副教授Kolter和卡內基?梅隆大學博士生Zou在接受IT外媒的采訪時對來自普林斯頓大學、弗吉尼亞理工大學、IBM研究院和斯坦福大學的同行們所做的研究工作表示了贊賞。
Kolter認為:“過去有一種觀念認為,聊天機器人的商業API模型在某種程度上天生比開源模型來得安全。”
被問及僅僅將訓練數據僅限于“安全”的數據是否是一種切實可行的做法時,Kolter表示了懷疑,因為這也將限制模型的實用性。
他說:“如果你只使用安全數據訓練模型,你就再也不能把它用作內容審核過濾器,因為它不知道如何量化有害內容。有一點非常清楚,那就是模型似乎確實表明需要更多的緩解技術,以及需要對哪些緩解技術在實踐中實際發揮作用開展更進一步的研究。”
被問及開發針對有問題的查詢,作出“對不起,Dave,我不能那樣做”回答的軟件這種做法是否可取時,Kolter表示這是超出他專業知識范疇的問題,我們還沒有看到這種先發制人的行為被內置到汽車或物理工具中。不過他承認,就大語言模型而言,由于這些人工智能模型可以大規模運行,安全不容忽視。”
Zou表示,盡管他和合著者在對抗性提示方面有所發現,盡管Qi等人在微調方面有所發現,但他依然相信商業模型開發商有一條出路。
他說:“這些部署在網上的大語言模型只是在一年半載之前才可供使用。所以安全訓練和護欄這些話題仍然是活躍的研究領域。可能有很多方法可以規避人們所做的安全訓練。但如果更多的人思考這些問題,我認為還是有望得到解決。”
OpenAI對此并沒有回應置評請求。
文章翻譯自:https://www.theregister.com/2023/10/12/chatbot_defenses_dissolve/?td=rt-3a如若轉載,請注明原文地址