成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek“防彈衣”來了,模型內生安全加固方案,拒絕殺敵一千自損八百|上海AI Lab

人工智能 新聞
上海交大與上海AI Lab聯合推出安全防御方案——X-Boundary,試圖破解兩難局面。

最新研究顯示,以超強推理爆紅的DeepSeek-R1模型竟藏隱形危險——

即便最終拒絕回答,其思考過程仍可能泄露有害內容。現有防御技術深陷兩難:要么防不住攻擊,要么讓模型變成”驚弓之鳥”,連正常問題都拒絕回答。

上海交大與上海AI Lab聯合推出安全防御方案——X-Boundary,試圖破解兩難局面。

X-Boundary通過分離安全和有害表征,并針對有害表征進行定向消除,在不損害模型通用性能且避免過度安全問題的前提下,實現精準高效的安全加固,使模型能夠同時防御多種單輪和多輪攻擊。

X-Boundary在DeepSeek-R1-Distill-Llama-8B上的表現如下圖所示:

圖片

案例分析:當黑客發動惡意提問時,原始模型的”思維鏈條”會泄露危險信息(左圖),而經過X-Boundary安全加固的模型如同被植入”認知凈化芯片”——通過精準切除有害特征,徹底封堵信息泄漏通道(右圖)。

結合基于規則的檢測器,一旦發現安全風險過高導致的異常輸出則終止模型思考,同步觸發安全代答響應,從而實現高效和安全的兼顧。

圖片

四大防御方法首度遷移評測:安全與智能的失衡困局

主流防御方法(SFT/DPO/GA/CB)應用在推理模型上,一個尖銳的矛盾浮出水面:模型的安全防線每加固一分,其智能水平就衰退一程

現有的防御方法要么不奏效,要么會對推理能力造成很大的損失。實驗數據顯示,SFT將攻擊成功率(ASR)壓低的同時,也導致了DeepSeek-R1-Distill-Llama-8B的數學能力在AIME-2024基準上驟降10%,在XSTest和PHTest上還出現了系統性誤判——超過50%的安全提問遭遇無理由拒絕(表3)。這暴露出當前防御策略的致命缺陷:它們并非真正識別出危險,而是通過”寧可錯殺一千”的粗暴策略壓低風險指標。

團隊進一步將這些防御技術引入多輪攻防場景,測評后發現,多輪防御訓練本身就像一把雙刃劍。在Qwen2.5-7B-Chat模型中加入多輪防御數據后,安全問答的誤傷率在OR-Bench和PHTest測試集上飆升30%,證明防御強度的提升與可用性損耗存在強相關性。

這種困境的根源,在特征空間的可視化分析中顯露無遺——現有方法構建的安全防線模糊不清,大量邊界案例(如詢問毒品危害的合理問題)的表征與真正有害的表征的分布高度重合,就像安檢儀無法分辨外形相似的礦泉水與易燃液體,最終導致這些安全表征被錯誤地分類,邊界問題也被拒絕回答,模型陷入了“過度安全”的怪圈。

圖片

為大模型精準打造“內生安全系統”

面對現有防御技術”傷敵一千自損八百”的困境,團隊提出X-Boundary防御框架——如同為AI建立智能安檢通道,實現危險內容精準攔截與安全信息無感通行。

三步建立動態防護網

  1. 邊界繪制:通過設計顯式的表征分離優化目標,讓危險請求的表征向量與安全表征向量形成90°垂直角,從根源切斷兩者混淆的可能,在表征空間強行劃出“安全禁區”。
  2. 威脅瓦解:對危險表征施加不可逆的擾動,使其無法保持原始有害形態(類似文件粉碎機的不可逆擦除)。
  3. 智能保鮮:采用表征維持技術,確保絕大多數安全問題的表征不受訓練影響,維持模型原生智能。

圖片

理論突破 × 實踐驗證

基于最優傳輸理論的數學證明,X-Boundary有助于使安全表征更聚集,從而加快大模型訓練時的收斂速度。實驗顯示,在Llama-3-8B和Qwen2.5-7B模型上,訓練收斂速度分別提升27%18%(圖4),實現安全防御與訓練效率的雙重進化。

圖片

安全與智能的平衡

“火眼金睛”區分安全和有害表征

如圖5所示,X-Boundary成功在模型內部構建出明暗分界的安全防線——使大模型內部的有害表征和安全表征得到清晰的區分,徹底終結了傳統方法”敵我不分”的混沌局面。

圖片

魯棒的多輪防御與高可用性兼得

有了清晰的表征區分邊界,X-Boundary能在安全性和可用性之間取得平衡(表1):

  • 多輪攻擊防御成功率(ASR)追平現有最優方案
  • 誤傷率(Over-refusal)降至最低水平降至最低水平
  • 模型通用能力保持99%以上原生性能

圖片

圖 6 直觀地展示了防御成功率與誤傷率之間的權衡。X-Boundary 位于圖的左下角,表明 X-Boundary 相比其他方法在兩個指標之間取得了更好的平衡。

圖片

跨模型規模的穩健打擊

當擴展到140億參數的Qwen2.5-14B-Chat時(表2):

  • 對復雜多輪攻擊的防御強度再提升65%
  • 誤傷率增幅嚴格鎖死在5%以內
  • 模型智商損耗不足0.6%

這意味著即使面對更大規模、更復雜的AI系統,X-Boundary依然能實現零感知防御

圖片

作者簡介

本文由上海AI Lab、上交大和電子科大聯合完成。

主要作者包括上海AI Lab和上交大聯培博士生盧曉雅、上海AI Lab青年研究員劉東瑞(共同一作)等。

通訊作者邵婧為上海AI Lab青年科學家,研究方向為AI安全可信。

論文地址:https://arxiv.org/abs/2502.09990
項目主頁:https://github.com/AI45Lab/X-Boundary

責任編輯:張燕妮 來源: 量子位
相關推薦

2014-09-01 14:27:47

初志科技云存儲

2016-09-13 09:55:37

特權訪問管理PAM

2016-09-27 17:43:02

網絡安全技術周刊

2015-04-21 17:29:36

2024-09-23 15:40:00

2025-04-10 09:38:37

2012-07-13 10:29:03

2024-06-17 18:04:38

2025-06-18 09:31:13

2024-10-25 14:30:00

模型AI

2024-07-22 15:34:21

2025-02-17 09:33:00

AI算法模型

2025-06-24 08:50:00

模型數據AI

2025-04-25 09:20:00

數據模型AI

2025-06-18 09:03:07

2010-03-10 01:08:08

RSA2010大會有感

2011-01-19 11:20:17

職場

2025-02-12 07:08:33

2023-12-03 21:52:20

2025-03-13 09:47:29

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线亚洲免费视频 | 欧美日韩国产免费 | 一区二区不卡视频 | 日韩视频一区二区 | 久久久久91| 成人免费观看男女羞羞视频 | 国产视频1区 | 激情av在线 | 亚洲欧美一区二区三区1000 | 亚洲一区中文字幕在线观看 | 4h影视| 国产一区二区黑人欧美xxxx | 日日天天 | 久久久久久久电影 | 99在线精品视频 | 日韩视频观看 | 国产wwwcom| 国产在线一级片 | 成人午夜免费福利视频 | 曰韩一二三区 | 日韩在线免费视频 | 国产一区二区三区精品久久久 | 国产精品久久久久久久久久久久久久 | 精品在线一区 | 欧美女优在线观看 | 福利视频一区二区三区 | 五月激情六月婷婷 | av日韩精品 | 日本一级淫片免费啪啪3 | 中文字幕在线观看国产 | 91伦理片| 欧美综合视频在线 | 色播久久久 | 中文字幕亚洲一区 | 皇色视频在线 | 国产一区二区三区视频在线观看 | 国产日韩欧美二区 | 97精品超碰一区二区三区 | 国产高清视频一区 | 国产亚洲精品久久情网 | 91av视频 |