DeepSeek“防彈衣”來了，模型內生安全加固方案，拒絕殺敵一千自損八百｜上海AI Lab

作者：量子位 2025-03-13 13:10:00

人工智能新聞

上海交大與上海AI Lab聯合推出安全防御方案——X-Boundary，試圖破解兩難局面。

最新研究顯示，以超強推理爆紅的DeepSeek-R1模型竟藏隱形危險——

即便最終拒絕回答，其思考過程仍可能泄露有害內容。現有防御技術深陷兩難：要么防不住攻擊，要么讓模型變成”驚弓之鳥”，連正常問題都拒絕回答。

上海交大與上海AI Lab聯合推出安全防御方案——X-Boundary，試圖破解兩難局面。

X-Boundary通過分離安全和有害表征，并針對有害表征進行定向消除，在不損害模型通用性能且避免過度安全問題的前提下，實現精準高效的安全加固，使模型能夠同時防御多種單輪和多輪攻擊。

X-Boundary在DeepSeek-R1-Distill-Llama-8B上的表現如下圖所示：

案例分析：當黑客發動惡意提問時，原始模型的”思維鏈條”會泄露危險信息（左圖），而經過X-Boundary安全加固的模型如同被植入”認知凈化芯片”——通過精準切除有害特征，徹底封堵信息泄漏通道（右圖）。

結合基于規則的檢測器，一旦發現安全風險過高導致的異常輸出則終止模型思考，同步觸發安全代答響應，從而實現高效和安全的兼顧。

四大防御方法首度遷移評測：安全與智能的失衡困局

當主流防御方法（SFT/DPO/GA/CB）應用在推理模型上，一個尖銳的矛盾浮出水面：模型的安全防線每加固一分，其智能水平就衰退一程。

現有的防御方法要么不奏效，要么會對推理能力造成很大的損失。實驗數據顯示，SFT將攻擊成功率（ASR）壓低的同時，也導致了DeepSeek-R1-Distill-Llama-8B的數學能力在AIME-2024基準上驟降10%，在XSTest和PHTest上還出現了系統性誤判——超過50%的安全提問遭遇無理由拒絕（表3）。這暴露出當前防御策略的致命缺陷：它們并非真正識別出危險，而是通過”寧可錯殺一千”的粗暴策略壓低風險指標。

團隊進一步將這些防御技術引入多輪攻防場景，測評后發現，多輪防御訓練本身就像一把雙刃劍。在Qwen2.5-7B-Chat模型中加入多輪防御數據后，安全問答的誤傷率在OR-Bench和PHTest測試集上飆升30%，證明防御強度的提升與可用性損耗存在強相關性。

這種困境的根源，在特征空間的可視化分析中顯露無遺——現有方法構建的安全防線模糊不清，大量邊界案例（如詢問毒品危害的合理問題）的表征與真正有害的表征的分布高度重合，就像安檢儀無法分辨外形相似的礦泉水與易燃液體，最終導致這些安全表征被錯誤地分類，邊界問題也被拒絕回答，模型陷入了“過度安全”的怪圈。

為大模型精準打造“內生安全系統”

面對現有防御技術”傷敵一千自損八百”的困境，團隊提出X-Boundary防御框架——如同為AI建立智能安檢通道，實現危險內容精準攔截與安全信息無感通行。

三步建立動態防護網

邊界繪制：通過設計顯式的表征分離優化目標，讓危險請求的表征向量與安全表征向量形成90°垂直角，從根源切斷兩者混淆的可能，在表征空間強行劃出“安全禁區”。
威脅瓦解：對危險表征施加不可逆的擾動，使其無法保持原始有害形態（類似文件粉碎機的不可逆擦除）。
智能保鮮：采用表征維持技術，確保絕大多數安全問題的表征不受訓練影響，維持模型原生智能。