成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

網(wǎng)傳DeepSeek R1更容易被越獄?這有個入選頂會的防御框架SelfDefend

人工智能 新聞
這項開創(chuàng)性的研究不僅為 AI 安全領(lǐng)域帶來了突破性進展,更揭示了一個振奮人心的信號:AI 系統(tǒng)的安全性與效率不再是魚和熊掌不可兼得。

本文一作王勛廣是香港科技大學(xué)的在讀博士生,本科和碩士分別畢業(yè)于中國地質(zhì)大學(xué)和哈爾濱工業(yè)大學(xué),主要研究方向是大模型安全。通訊作者吳道遠,香港科技大學(xué)研究助理教授,研究方向包括大模型安全、區(qū)塊鏈和智能合約安全、移動系統(tǒng)和軟件安全。通訊作者王帥,香港科技大學(xué)長聘副教授。研究方向包括 AI 安全、軟件安全、數(shù)據(jù)隱私、逆向工程等。

最近一段時間,DeepSeek 可謂是風(fēng)頭無兩。

在大家紛紛贊揚其超強性能的同時,也有媒體曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越獄。

比如,此前賓夕法尼亞大學(xué)的研究者使用來自HarmBench數(shù)據(jù)集的50個有害提示對DeepSeek R1進行測試,這些提示涵蓋網(wǎng)絡(luò)犯罪、虛假信息和非法活動等領(lǐng)域。結(jié)果顯示,DeepSeek未能攔截任何一個有害請求,攻擊成功率達到驚人的100%。

這時如果有一個 AI 系統(tǒng)能像人類一樣具備自我保護意識,在面對 ' 欺騙 ' 時能夠當(dāng)機立斷地識破陰謀 —— 這不再是科幻片中的場景。

近日,來自香港科技大學(xué)、南洋理工大學(xué)等機構(gòu)的研究團隊最新成果讓這一設(shè)想成為現(xiàn)實。他們提出的 SelfDefend 框架,讓大語言模型首次擁有了真正意義上的 ' 自衛(wèi)能力 ',能夠有效識別和抵御各類越獄攻擊,同時保持極低的響應(yīng)延遲。

  • 論文標(biāo)題:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
  • 論文主頁:https://selfdefend.github.io/ 
  • 論文鏈接:https://arxiv.org/abs/2406.05498
  • GitHub 鏈接:https://github.com/selfdefend/Code

近年來,大語言模型(LLMs)在自然語言處理、信息檢索、圖像生成等多個領(lǐng)域展現(xiàn)出巨大潛力。然而,隨著 LLMs 的廣泛應(yīng)用,如何確保其安全性成為了一個重要課題。尤其是 “越獄攻擊”(Jailbreaking),這種攻擊通過繞過 LLMs 的安全對齊機制,誘導(dǎo)模型生成有害內(nèi)容,引發(fā)了廣泛關(guān)注。為了應(yīng)對這一挑戰(zhàn),香港科技大學(xué)、南洋理工等團隊聯(lián)合提出了一種名為 SelfDefend 的新型防御框架,該框架通過引入 “影子 LLM”(Shadow LLM)來并行檢測潛在的有害查詢,從而有效抵御多種越獄攻擊。

越獄攻擊的多樣性與防御挑戰(zhàn)

越獄攻擊的形式多種多樣,包括基于人工設(shè)計的攻擊、基于優(yōu)化的攻擊、基于生成的攻擊,以及最近出現(xiàn)的間接攻擊和多語言攻擊。這些攻擊手段不斷進化,使得傳統(tǒng)的防御機制難以應(yīng)對。現(xiàn)有的防御方法主要分為兩類:基于模型的防御和基于插件的防御。前者通過改進模型的內(nèi)在機制來增強安全性,后者則通過外部插件來增強現(xiàn)有模型的安全性。然而,這些方法在實際應(yīng)用中面臨諸多挑戰(zhàn),無法同時滿足四個目標(biāo):應(yīng)對所有類型的攻擊(O1)、引入可忽略的額外延遲(O2)、對檢測出的越獄訪問提供可解釋性(O3),以及同時適用于開源和閉源模型(O4)。

SelfDefend 框架的創(chuàng)新設(shè)計

SelfDefend 框架的靈感來源于傳統(tǒng)安全領(lǐng)域中的 “影子棧”(Shadow Stack)概念。影子棧通過創(chuàng)建一個并行的內(nèi)存空間來防御內(nèi)存溢出攻擊,而 SelfDefend 則通過創(chuàng)建一個并行的 “影子 LLM” 來檢測潛在的有害查詢。具體來說,SelfDefend 框架包含兩個并行的 LLM 實例:一個用于正常響應(yīng)用戶查詢的目標(biāo) LLM),另一個用于檢測有害內(nèi)容的防御 LLM)。當(dāng)用戶輸入查詢時,目標(biāo) LLM 會正常處理查詢并生成響應(yīng),而防御 LLM 則通過特定的檢測提示詞()來識別查詢中的有害部分或意圖。

這種設(shè)計帶來了多重優(yōu)勢:首先,它同時利用了目標(biāo) LLM 的安全對齊機制和防御 LLM 的越獄檢測能力,形成了雙重保護層,顯著提高了防御成功率;其次,由于防御 LLM 的輸出通常較短(如 “No” 表示無問題),正常查詢的響應(yīng)延遲幾乎可以忽略不計;然后檢測出的有害部分或者惡意意圖可以作為防御的可解釋性;最后,由于防御 LLM 不需要修改或監(jiān)控目標(biāo) LLM 的內(nèi)部機制,因此可以兼容開源和閉源模型。

實驗驗證與效果評估

研究團隊通過大量實驗驗證了 SelfDefend 框架的有效性。實驗結(jié)果表明,基于 GPT-3.5 和 GPT-4 的 SelfDefend 能夠顯著降低多種越獄攻擊的成功率。例如,基于 GPT-3.5 的 SelfDefend 將攻擊成功率(ASR)從平均 65.7% 降低至 0.236,而基于 GPT-4 的 SelfDefend 更是將 ASR 降低至平均 0.050。此外,SelfDefend 對正常查詢的影響微乎其微,GPT-3.5 和 GPT-4 的正常查詢通過率僅分別下降了 0.51% 和 2.77%。

為了進一步降低成本和提升魯棒性,研究團隊還通過數(shù)據(jù)蒸餾方法對開源的 Llama-2-7b 模型進行了微調(diào),生成了專用的防御模型。實驗表明,這些微調(diào)后的模型在防御效果上與基于 GPT-4 的 SelfDefend 相當(dāng),且額外延遲顯著降低。例如,微調(diào)后的模型在正常查詢中的平均延遲僅為 0-0.01 秒,而在攻擊場景中的最大延遲從 GPT-4 的 1.56 秒降低至 0.39 秒。

與現(xiàn)有防御方法的對比

研究團隊還將 SelfDefend 與現(xiàn)有的七種主流防御方法進行了對比,包括 ICD、SafeDecoding、Perplexity Filter、SmoothLLM、Llama Guard 等。實驗結(jié)果顯示,SelfDefend 在 60 個測試場景中的 55 個場景中表現(xiàn)最優(yōu),尤其是在應(yīng)對間接攻擊和多語言攻擊時,SelfDefend 的防御效果顯著優(yōu)于其他方法。此外,SelfDefend 的額外延遲也遠低于其他防御方法,使其在實際部署中更具可行性。

未來展望

這項開創(chuàng)性的研究不僅為 AI 安全領(lǐng)域帶來了突破性進展,更揭示了一個振奮人心的信號:AI 系統(tǒng)的安全性與效率不再是魚和熊掌不可兼得。通過賦予 AI' 自衛(wèi)意識 ',SelfDefend 展現(xiàn)了一個更安全的 AI 未來:在這個未來里,AI 系統(tǒng)既能保持高效服務(wù)能力,又能主動識別和抵御潛在威脅,真正實現(xiàn) ' 自我守護 '。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-27 12:30:07

2025-02-20 15:32:28

2025-03-06 00:22:00

2025-02-11 08:35:30

2025-02-07 13:10:06

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-08 11:31:17

DeepseekR1模型

2025-02-12 12:12:59

2025-03-14 11:57:43

2025-02-03 12:07:52

2025-02-17 07:35:00

DeepSeek模型數(shù)據(jù)

2025-02-03 00:00:55

DeepSeekRAG系統(tǒng)

2025-03-11 02:00:00

AI工具Token-AI

2025-02-03 06:00:00

2021-09-02 10:15:50

計算平臺MaxCompute 阿里云

2025-03-06 10:14:39

2025-02-27 00:00:05

2019-07-25 14:48:35

AI人工智能女工

2025-02-10 11:27:37

2021-01-14 10:48:05

技術(shù)RPCRS
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人午夜电影在线观看 | 国产精品a一区二区三区网址 | 久久人操| 嫩草一区二区三区 | 日韩中文字幕在线观看视频 | 久久91精品| 美女久久 | 激情毛片 | 国产日韩精品久久 | 久久久精品高清 | 久久在线视频 | 精品欧美乱码久久久久久1区2区 | 日本精品一区二区 | 国产免费观看久久黄av片涩av | 精品www| 日韩成人免费视频 | 精品久久久久久久久久久下田 | 亚洲成人999 | 国产精品一区二区三区久久久 | 精品久久久久久一区二区 | 99精品视频一区二区三区 | av中文网| 国产欧美日韩一区 | 久久一区视频 | 粉嫩在线 | 成人黄色在线观看 | 国产乱码高清区二区三区在线 | 欧美成人一区二区 | 一区二区手机在线 | 日韩欧美精品一区 | 国产成人午夜电影网 | 波波电影院一区二区三区 | 国产成人精品免费 | 97精品国产 | 亚洲成人一区二区 | 久久久一区二区三区四区 | 久久久久一区二区三区四区 | 久久久久久国产精品久久 | 国产婷婷色综合av蜜臀av | 欧美一区2区三区4区公司二百 | 91精品国产综合久久久久 |