新型"回音室"越獄技術(shù)可誘使 OpenAI 和谷歌大模型生成有害內(nèi)容

作者：wwansdhj 2025-06-24 10:07:10

盡管各大LLM持續(xù)加強防護措施來抵御提示詞注入和越獄攻擊，最新研究表明，存在無需專業(yè)技術(shù)即可實現(xiàn)高成功率的新型攻擊技術(shù)。

網(wǎng)絡(luò)安全研究人員近日披露了一種名為"回音室"（Echo Chamber）的新型越獄方法，能夠誘使主流大語言模型（LLMs）突破安全限制生成不當(dāng)內(nèi)容。NeuralTrust研究員Ahmad Alobaid在報告中指出："與傳統(tǒng)依賴對抗性措辭或字符混淆的越獄技術(shù)不同，'回音室'利用了間接引用、語義引導(dǎo)和多步推理等手段，通過微妙而強大的模型內(nèi)部狀態(tài)操控，逐步誘導(dǎo)其生成違反策略的響應(yīng)。"

大語言模型安全防護面臨新挑戰(zhàn)

盡管各大LLM持續(xù)加強防護措施來抵御提示詞注入和越獄攻擊，最新研究表明，存在無需專業(yè)技術(shù)即可實現(xiàn)高成功率的新型攻擊技術(shù)。這凸顯了開發(fā)符合倫理的LLM所面臨的持續(xù)挑戰(zhàn)——如何明確界定可接受與不可接受的話題邊界。

當(dāng)前主流LLM雖然能夠拒絕直接涉及敏感話題的用戶提示，但在"多輪越獄"攻擊中仍可能被誘導(dǎo)生成不道德內(nèi)容。這類攻擊通常以無害問題開場，通過逐步提出更具惡意的系列問題（稱為"Crescendo"攻擊），最終誘騙模型輸出有害內(nèi)容。

此外，LLM還容易受到"多輪射擊"越獄攻擊，攻擊者利用模型的大上下文窗口，在最終惡意問題前注入大量展現(xiàn)越獄行為的問答對，使LLM延續(xù)相同模式生成有害內(nèi)容。

"回音室"攻擊的工作原理

據(jù)NeuralTrust介紹，"回音室"攻擊結(jié)合了上下文污染和多輪推理技術(shù)來突破模型的安全機制。Alobaid解釋道："與Crescendo全程主導(dǎo)對話不同，'回音室'是讓LLM自行填補空白，我們僅根據(jù)其響應(yīng)進(jìn)行相應(yīng)引導(dǎo)。"

這種多階段對抗性提示技術(shù)從看似無害的輸入開始，通過間接引導(dǎo)逐步產(chǎn)生危險內(nèi)容，同時隱藏攻擊的最終目標(biāo)（如生成仇恨言論）。NeuralTrust指出："預(yù)先植入的提示會影響模型響應(yīng)，這些響應(yīng)又在后續(xù)對話中被利用來強化原始目標(biāo)，形成模型放大對話中有害潛臺詞的反饋循環(huán)，逐步削弱其自身安全防護。"

驚人的攻擊成功率

在針對OpenAI和谷歌模型的受控測試中，"回音室"攻擊在性別歧視、負(fù)面情緒和色情內(nèi)容等相關(guān)話題上取得超過90%的成功率，在虛假信息和自殘類別中也達(dá)到近80%的成功率。該公司警告稱："該攻擊揭示了LLM對齊工作中的關(guān)鍵盲區(qū)——模型持續(xù)推理能力越強，就越容易受到間接利用。"

責(zé)任編輯：趙寧寧來源： FreeBuf

網(wǎng)絡(luò)安全越獄攻擊提示詞注入

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新型"回音室"越獄技術(shù)可誘使 OpenAI 和谷歌大模型生成有害內(nèi)容

大語言模型安全防護面臨新挑戰(zhàn)

"回音室"攻擊的工作原理

驚人的攻擊成功率