成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI自己給自己當(dāng)網(wǎng)管,實(shí)現(xiàn)安全“頓悟時(shí)刻”,風(fēng)險(xiǎn)率直降9.6%

人工智能 新聞
來(lái)自加州大學(xué)圣克魯茲分校,加州大學(xué)伯克利分校,思科研究和耶魯大學(xué)的的研究團(tuán)隊(duì)提出了創(chuàng)新的SafeKey框架,成功在不影響模型核心能力的前提下,顯著增強(qiáng)了其安全穩(wěn)健性。

大型推理模型(LRMs)在解決復(fù)雜任務(wù)時(shí)展現(xiàn)出的強(qiáng)大能力令人驚嘆,但其背后隱藏的安全風(fēng)險(xiǎn)不容忽視。

盡管學(xué)術(shù)界已嘗試通過(guò)監(jiān)督微調(diào)(SFT)有效地提升模型安全,但下圖的測(cè)試結(jié)果所示,監(jiān)督微調(diào)在面對(duì)訓(xùn)練數(shù)據(jù)領(lǐng)域外的層出不窮的“越獄”攻擊時(shí),往往顯得捉襟見(jiàn)肘,泛化能力有限。

同時(shí),之前的工作沒(méi)有對(duì)大型推理模型的安全思考做深入的分析,以進(jìn)行針對(duì)性的提升。

圖片

來(lái)自加州大學(xué)圣克魯茲分校,加州大學(xué)伯克利分校,思科研究和耶魯大學(xué)的的研究團(tuán)隊(duì)提出了創(chuàng)新的SafeKey框架,成功在不影響模型核心能力的前提下,顯著增強(qiáng)了其安全穩(wěn)健性。

圖片

發(fā)現(xiàn):大模型信息“越獄”的兩大核心

SafeKey團(tuán)隊(duì)在探究模型為何會(huì)“越獄”成功時(shí),獲得了兩大核心發(fā)現(xiàn):

1.“關(guān)鍵句”現(xiàn)象(The “Key Sentence”)

如下圖所示,推理模型在回答問(wèn)題時(shí),普遍會(huì)先進(jìn)行一段對(duì)用戶(hù)查詢(xún)的理解與重述。

而緊隨其后的第一個(gè)句子,往往直接決定了整個(gè)回答的“安全調(diào)性”。

研究團(tuán)隊(duì)將其命名為“關(guān)鍵句”(Key Sentence):一個(gè)安全的“頓悟時(shí)刻”(Aha-moment)能否在此時(shí)被觸發(fā),是模型走向安全回答還是危險(xiǎn)回答的分水嶺。

圖片

2.“沉睡的安全信號(hào)”(The Dormant Safety Signal)

另外,對(duì)于大量“越獄”成功的案例,模型在生成“關(guān)鍵句”之前,其對(duì)查詢(xún)的理解和復(fù)述已經(jīng)明確暴露了查詢(xún)的惡意

這意味著,模型內(nèi)部的隱藏狀態(tài)在早期階段就已攜帶了強(qiáng)烈的安全特征信號(hào)。

但是在回答查詢(xún)的過(guò)程中,這個(gè)寶貴的安全信號(hào)卻陷入了“沉睡”,未能在后續(xù)生成“關(guān)鍵句”的過(guò)程中被充分利用,導(dǎo)致了最終的安全防線崩潰。

SafeKey:雙管齊下,喚醒模型的內(nèi)在安全頓悟

基于上述發(fā)現(xiàn),SafeKey框架應(yīng)運(yùn)而生——

它不再滿(mǎn)足于簡(jiǎn)單的“對(duì)錯(cuò)”教導(dǎo),而是通過(guò)兩大創(chuàng)新優(yōu)化目標(biāo),精準(zhǔn)地強(qiáng)化模型在“關(guān)鍵句”生成時(shí)的“安全頓悟時(shí)刻”。

雙通路安全頭(Dual-Path Safety Head):提前放大安全信號(hào)

如下圖所示,為了強(qiáng)化模型內(nèi)部的安全信號(hào),研究團(tuán)隊(duì)設(shè)計(jì)了“雙通路安全頭”。在訓(xùn)練階段,它會(huì)并行地監(jiān)督兩段關(guān)鍵內(nèi)容的隱藏狀態(tài):

圖片

a.“關(guān)鍵句”之前的所有內(nèi)容。

b.模型對(duì)原始查詢(xún)的理解與復(fù)述過(guò)程。

這種設(shè)計(jì)通過(guò)監(jiān)督預(yù)測(cè)頭對(duì)這兩個(gè)關(guān)鍵階段的隱藏狀態(tài)進(jìn)行安全判別,迫使模型在生成“關(guān)鍵句”前放大隱藏狀態(tài)內(nèi)的安全信號(hào),為后續(xù)成功觸發(fā)“安全頓悟”做好了充分鋪墊。

查詢(xún)遮蔽建模(Query-Mask Modeling):強(qiáng)迫模型“聽(tīng)自己的”

如下圖所示,為了促使模型在決策時(shí)更加依賴(lài)自己內(nèi)在的安全判斷,而非被“越獄”指令牽著鼻子走,SafeKey團(tuán)隊(duì)提出了“查詢(xún)遮蔽建模”。

圖片

該任務(wù)會(huì)完全遮蔽掉原始的用戶(hù)輸入,要求模型僅憑自己剛剛生成的“理解與復(fù)述”內(nèi)容,來(lái)續(xù)寫(xiě)出安全的“關(guān)鍵句”

這種設(shè)計(jì)強(qiáng)迫模型必須“相信”并“利用”自己剛剛形成的、已經(jīng)攜帶了安全信號(hào)的內(nèi)部理解,從而極大地增強(qiáng)了安全決策的自主性和穩(wěn)健性。

測(cè)試:安全與能力的“雙贏”

圖片

SafeKey的有效性在實(shí)驗(yàn)中得到了充分驗(yàn)證:

安全性能顯著提升:實(shí)驗(yàn)結(jié)果表明,SafeKey框架能夠顯著地提升模型的安全性,尤其是在面對(duì)訓(xùn)練領(lǐng)域外的危險(xiǎn)輸入和越獄提示的時(shí)候,能夠在三個(gè)不同大小的模型上降低9.6%的危險(xiǎn)率

有效維持核心能力:SafeKey完美地保持了模型原有的各項(xiàng)核心能力。在數(shù)學(xué)推理、代碼和通用語(yǔ)言理解等基準(zhǔn)測(cè)試上,搭載SafeKey的模型甚至取得了比原始基線平均高0.8%的準(zhǔn)確率

圖片

模塊有效性驗(yàn)證:消融實(shí)驗(yàn)證明,“雙通路安全頭”和“查詢(xún)遮蔽建模”兩個(gè)模塊均可獨(dú)立提升模型安全性。進(jìn)一步實(shí)驗(yàn)分析發(fā)現(xiàn),SafeKey能夠提升模型在生成關(guān)鍵句的時(shí)候?qū)ψ约旱膹?fù)述與理解的注意力。同時(shí),雙通路安全頭的損失函數(shù)能讓模型學(xué)到更好的安全表征,從而使安全頭更容易學(xué)會(huì)正確的安全分類(lèi)。

總的來(lái)說(shuō),SafeKey框架能夠應(yīng)用在各種不同的大型推理模型上,在幾乎不影響模型能力的同時(shí)提升模型的安全性,并且需要較少的計(jì)算資源。

論文地址:https://arxiv.org/pdf/2505.16186

項(xiàng)目主頁(yè):https://safekeylrm.github.io/

復(fù)現(xiàn)代碼:https://github.com/eric-ai-lab/SafeKey/

模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2020-09-23 11:26:40

人工智能技術(shù)網(wǎng)絡(luò)犯罪

2009-03-13 10:11:05

2023-06-15 07:53:07

NeRF深度學(xué)習(xí)

2025-04-25 08:00:00

網(wǎng)絡(luò)安全AI漏洞

2010-08-20 10:25:36

服務(wù)器發(fā)電

2023-05-09 06:54:34

2011-06-27 16:18:24

Qt Designer

2011-07-20 16:29:40

iPhone Installer 軟件源

2015-05-08 10:52:39

2018-05-25 10:24:35

職場(chǎng)技能互聯(lián)網(wǎng)

2025-04-01 09:54:09

AI算法大模型AI

2014-04-22 09:59:16

2015-07-23 14:53:50

貝葉斯分類(lèi)器

2012-07-10 01:34:27

代碼優(yōu)化代碼程序員

2013-08-27 10:24:01

2025-02-21 08:10:00

隱形AI影子AI安全

2023-07-26 19:03:28

2025-01-21 10:10:56

2020-10-26 07:03:35

機(jī)器學(xué)習(xí)算法

2022-08-23 23:19:12

ChromeCoverage
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日本久久精品视频 | 国产第一页在线播放 | 911影院| 无人区国产成人久久三区 | 免费精品视频在线观看 | 欧美a级成人淫片免费看 | 日韩免费一区二区 | 欧美日韩亚洲三区 | 精品美女久久久 | 欧美性网站 | 91久久精品国产 | 精品久久久久久久久久 | 日本一二区视频 | 久久国产精品-国产精品 | 国产精品v | 国产区高清 | 欧美日韩国产在线观看 | 日日骚网 | 免费黄色片在线观看 | 欧美日韩亚洲国产 | 国产乱码一区 | 欧美视频精品 | 国产欧美精品一区 | 欧美高清成人 | 国产丝袜人妖cd露出 | 国产精品高潮呻吟久久av黑人 | 久久精品亚洲精品国产欧美 | 九九久久精品 | 国产精品九九视频 | 激情久久av一区av二区av三区 | 国产精品美女久久久久久久网站 | 亚洲成人自拍 | 婷婷福利| 日韩一区三区 | 日韩激情在线 | 免费观看视频www | 精品欧美一区二区三区久久久 | av一级一片 | 亚洲情侣视频 | 成人av一区二区三区 | 黄免费观看视频 |