新型對抗攻擊影響ChatGPT等主流大語言模型
ChatGPT是一個基于人工智能技術的自然語言處理模型,可以通過學習大量的語料庫,生成自然語言的文本和對話。ChatGPT通過為各行各業帶來更高效、智能和個性化的服務而對各行業帶來變革性影響。
研究人員發現ChatGPT、Bard、Claude等人工智能大語言模型(Large language model,LLM)會在回答用戶提問時,可能會產生一些不當內容,即越獄攻擊。比如,通過特殊關鍵詞等查詢來讓大語言模型產生非預期的響應內容。隨后,研究人員開展了大量的調試工作,以盡可能避免回答用戶有害的內容。雖然已有研究人員證明了針對大語言模型的越獄攻擊,但這一過程需要大量的手動操作來進行設計,而且很容易被大語言模型提供商所修復。
機器學習從數據中學習模式,對抗攻擊正是利用機器學習的這一特征來生成異常行為。比如,對圖像做出的人類無法察覺的小修改會使圖像分類器將其錯誤識別為其他問題,或使聲音識別系統產生人類聽不見的響應消息。
來自卡耐基梅隆大學的研究人員系統研究了大語言模型的安全性,證明可以自動構造針對大語言模型的對抗樣本,尤其是在用戶查詢中添加特定字符流會使大語言模型根據用戶查詢產生結果,并不會判斷產生的回復是否有害。與傳統的大模型越獄相比,研究人員的這一對抗攻擊過程是完全自動的,即用戶可以無限制的發起此類攻擊。
雖然該研究的攻擊目標是開源大語言模型,但研究人員發現利用其提出的方法生成的對抗提示(prompt)是可遷移的,包括對黑盒的公開發布的大語言模型。研究人員發現此類字符串對抗攻擊也可以遷移到許多閉源的、公開可訪問的基于大模型的聊天機器人,如ChatGPT、Bard和 Claude。鑒于部分模型已開始商用,研究人員對此類模型的安全性表示擔憂。
目前尚不清楚大語言模型提供商是否能夠完全修復此類對抗攻擊行為。但過去10年間,類似的針對機器學習的對抗攻擊在計算機視覺是一個非常困難的挑戰。雖然深度學習模型的本質使得此類威脅不可避免,但研究人員認為隨著大模型的廣泛使用以及人們對大模型的依賴,此類對抗攻擊應當納入考慮范圍。
針對大語言模型的對抗攻擊代碼參見:https://github.com/llm-attacks/llm-attacks
針對大語言模型的對抗攻擊研究論文參見:https://arxiv.org/abs/2307.15043