新型"回音室"越獄技術(shù)可誘使 OpenAI 和谷歌大模型生成有害內(nèi)容
網(wǎng)絡(luò)安全研究人員近日披露了一種名為"回音室"(Echo Chamber)的新型越獄方法,能夠誘使主流大語言模型(LLMs)突破安全限制生成不當(dāng)內(nèi)容。NeuralTrust研究員Ahmad Alobaid在報告中指出:"與傳統(tǒng)依賴對抗性措辭或字符混淆的越獄技術(shù)不同,'回音室'利用了間接引用、語義引導(dǎo)和多步推理等手段,通過微妙而強大的模型內(nèi)部狀態(tài)操控,逐步誘導(dǎo)其生成違反策略的響應(yīng)。"
大語言模型安全防護面臨新挑戰(zhàn)
盡管各大LLM持續(xù)加強防護措施來抵御提示詞注入和越獄攻擊,最新研究表明,存在無需專業(yè)技術(shù)即可實現(xiàn)高成功率的新型攻擊技術(shù)。這凸顯了開發(fā)符合倫理的LLM所面臨的持續(xù)挑戰(zhàn)——如何明確界定可接受與不可接受的話題邊界。
當(dāng)前主流LLM雖然能夠拒絕直接涉及敏感話題的用戶提示,但在"多輪越獄"攻擊中仍可能被誘導(dǎo)生成不道德內(nèi)容。這類攻擊通常以無害問題開場,通過逐步提出更具惡意的系列問題(稱為"Crescendo"攻擊),最終誘騙模型輸出有害內(nèi)容。
此外,LLM還容易受到"多輪射擊"越獄攻擊,攻擊者利用模型的大上下文窗口,在最終惡意問題前注入大量展現(xiàn)越獄行為的問答對,使LLM延續(xù)相同模式生成有害內(nèi)容。
"回音室"攻擊的工作原理
據(jù)NeuralTrust介紹,"回音室"攻擊結(jié)合了上下文污染和多輪推理技術(shù)來突破模型的安全機制。Alobaid解釋道:"與Crescendo全程主導(dǎo)對話不同,'回音室'是讓LLM自行填補空白,我們僅根據(jù)其響應(yīng)進(jìn)行相應(yīng)引導(dǎo)。"
這種多階段對抗性提示技術(shù)從看似無害的輸入開始,通過間接引導(dǎo)逐步產(chǎn)生危險內(nèi)容,同時隱藏攻擊的最終目標(biāo)(如生成仇恨言論)。NeuralTrust指出:"預(yù)先植入的提示會影響模型響應(yīng),這些響應(yīng)又在后續(xù)對話中被利用來強化原始目標(biāo),形成模型放大對話中有害潛臺詞的反饋循環(huán),逐步削弱其自身安全防護。"
驚人的攻擊成功率
在針對OpenAI和谷歌模型的受控測試中,"回音室"攻擊在性別歧視、負(fù)面情緒和色情內(nèi)容等相關(guān)話題上取得超過90%的成功率,在虛假信息和自殘類別中也達(dá)到近80%的成功率。該公司警告稱:"該攻擊揭示了LLM對齊工作中的關(guān)鍵盲區(qū)——模型持續(xù)推理能力越強,就越容易受到間接利用。"