成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

攻破AI最強(qiáng)守衛(wèi),賞金2萬刀!Anthropic新方法可阻止95% Claude「越獄」行為

人工智能 安全
Anthropic,公布了新的AI模型防護(hù)方法,在之后約48小時(shí)內(nèi),無人完全攻破新系統(tǒng),將賞金提高到了最高2萬美元。新方法真這么強(qiáng)?

最近,Anthropic安全研究團(tuán)隊(duì)「有點(diǎn)忙」。

本月4日,Anthropic在X上,邀請(qǐng)網(wǎng)友挑戰(zhàn)新的AI防護(hù)系統(tǒng)。兩天后,Anthropic稱:

目前,沒有人完全越獄新系統(tǒng),因此提高了賭注。

現(xiàn)在通過全部8關(guān)的第一名,我們獎(jiǎng)勵(lì)1萬美元;而通過全部8關(guān)并具有通用越獄能力的第一名,我們獎(jiǎng)勵(lì)2萬美元。

大語言模型(LLM)很容易受到通用越獄提示策略的影響,這種策略會(huì)系統(tǒng)地繞過模型保護(hù)措施,讓用戶能夠執(zhí)行有害過程,比如大規(guī)模制造非法物質(zhì)。

為了抵御這些攻擊, Anthropic安全研究團(tuán)隊(duì)引入了「憲法分類器」:在合成數(shù)據(jù)上訓(xùn)練的保障措施,通過提示LLM自然語言規(guī)則,規(guī)定了允許和限制的內(nèi)容。

這里的「憲法」是指自然語言規(guī)則,強(qiáng)調(diào)這些規(guī)則不可違背

「天下沒有免費(fèi)的午餐」,這自然會(huì)增加LLM的推理成本。

但Anthropic稱新方法可以可以阻止95%+的越獄,而代價(jià)也有限:

  1. 在為期2個(gè)月的實(shí)驗(yàn)期間,共有183名活躍參與者投入了超過3000小時(shí)的測試時(shí)間。盡管如此,沒有發(fā)現(xiàn)通用越獄攻擊。
  2. 自動(dòng)化評(píng)估中有10,000個(gè)越獄提示,許多當(dāng)前大語言模型被「攻破」。在基準(zhǔn)條件下,沒有防御性分類器時(shí),Claude只成功阻止了14%的高級(jí)越獄嘗試;Claude用新方法防護(hù)后,阻止了超過95%的越獄嘗試。
  3. 效果很明顯,而且代價(jià)也不大:生產(chǎn)環(huán)境中的Claude.ai流量拒絕率增加了0.38%,推理開銷增加了23.7%。

先解釋一下,為什么說新方法「見效快」:

1 沒有完美的「防護(hù)系統(tǒng)」,矛盾之爭會(huì)不斷升級(jí):新方法只有5%的「漏網(wǎng)之魚」。

2 雖然沒有新方法防護(hù),Claude也能阻止14%的越獄嘗試,但新方法將安全性提高了80%+,推理開銷增加只23.7%,性價(jià)比高!

3 幾乎不會(huì)影響正常使用:生產(chǎn)環(huán)境中的Claude.ai流量拒絕率增加了0.38%。

論文鏈接:https://arxiv.org/abs/2501.18837

博客鏈接:https://www.anthropic.com/research/constitutional-classifiers

為什么研究「模型越獄」?

為了評(píng)估新方法的穩(wěn)健性,對(duì)基于Claude 3.5 Sonnet微調(diào)的原型分類器,進(jìn)行了廣泛的人類紅隊(duì)測試。

在HackerOne邀請(qǐng)了405名參與者,其中包括經(jīng)驗(yàn)豐富的紅隊(duì)成員,參加了漏洞獎(jiǎng)勵(lì)計(jì)劃,并為發(fā)現(xiàn)通用性破解方法提供了獎(jiǎng)金。

比賽鏈接:https://hackerone.com/constitutional-classifiers?type=team

要求紅隊(duì)員回答十個(gè)有害的CBRN(化學(xué)、生物、放射性、核)查詢,而報(bào)酬與他們的成功率掛鉤。

Jan Leike, Anthropic的Alignment Science團(tuán)隊(duì)聯(lián)合負(fù)責(zé)人,在研究公布之后,詳細(xì)解釋了為什么要研究「模型越獄」的穩(wěn)健性。

更強(qiáng)大的大語言模型(LLMs)可能被濫用,帶來更大的危害。

例如,假設(shè)恐怖分子借助大語言模型的逐步指導(dǎo),制造大規(guī)模殺傷性武器,那該怎么辦?

明確一點(diǎn):目前的大語言模型并不擅長這一點(diǎn)。但一旦它們具備了這樣的能力,我們希望能夠防止它們被如此惡意濫用。

構(gòu)建有效的安全防護(hù)措施需要時(shí)間,并且有時(shí)需要解決一些開放的研究問題。

我們的團(tuán)隊(duì)集中精力,花費(fèi)了一年才構(gòu)建了最新系統(tǒng)。

我一次又一次地親眼目睹:一旦新模型訓(xùn)練完成,通常沒有足夠的時(shí)間來構(gòu)建強(qiáng)有力的安全防護(hù)。

如果不想因?yàn)榘踩雷o(hù)而阻止未來模型的部署(或者接受其帶來的風(fēng)險(xiǎn)),我們就需要提前解決這些安全問題!

這正是我們?cè)谶@里努力做的:我們正在構(gòu)建一個(gè)比當(dāng)前模型所需的防護(hù)更為強(qiáng)大的系統(tǒng)。

AI行業(yè)發(fā)展迅速,我預(yù)計(jì)它將繼續(xù)加速。

我們希望盡可能做好準(zhǔn)備,以便在需要時(shí)能夠應(yīng)對(duì)。

在加入Anthropic之前,他共同領(lǐng)導(dǎo)了OpenAI的Superalignment團(tuán)隊(duì),參與了InstructGPT、ChatGPT的開發(fā),以及GPT-4的對(duì)齊工作;制定了OpenAI的對(duì)齊研究方法,并共同編寫了研究路線圖。

新系統(tǒng)發(fā)布后,約48小時(shí)之內(nèi),他及時(shí)公布了結(jié)果:沒有人能通過第4關(guān),但更多的人通過了第3關(guān)。同日隨后不久,Anthropic在X上宣布了提高「賞金」。到本月8號(hào),他公布了「戰(zhàn)況」:只有一個(gè)人通過第5級(jí)防護(hù)。

在9日,終于有人拿走了首次「通關(guān)」的1萬美元獎(jiǎng)金。

在~300,000條消息和估計(jì)大約3,700個(gè)總工時(shí)之后,有人突破了全部8關(guān)。

然而,尚未找到通用的越獄方法......

算法原理

新系統(tǒng)引入了「憲法分類器」,利用明確的「憲法規(guī)則」來訓(xùn)練分類器的「保鏢」—— 防護(hù)系統(tǒng)(見下圖1a)。

新方法以「憲法」為核心,劃定了可允許和受限內(nèi)容的類別(見下圖1b),并指導(dǎo)合成訓(xùn)練樣本的生成(見下圖1c)。

通過更新憲法,可以快速適應(yīng)新的威脅模型,包括與模型不對(duì)齊相關(guān)的威脅。

為了提升性能,還廣泛采用了數(shù)據(jù)增強(qiáng),并利用了無害數(shù)據(jù)池。

至關(guān)重要的是,新的輸出分類器支持流式預(yù)測:評(píng)估完整模型輸出的潛在有害性,每個(gè)token生成時(shí)都不需要等待完整的輸出。可以實(shí)時(shí)干預(yù)模型——如果在任何階段檢測到有害內(nèi)容,可以立即停止生成內(nèi)容,從而同時(shí)保證安全性和用戶體驗(yàn)。

圖1:憲法分類器

(a) 為了防御大語言模型(LLM)免受通用越獄攻擊,使用分類器保護(hù)機(jī)制來監(jiān)控輸入和輸出。

(b) 為了訓(xùn)練這些保護(hù)機(jī)制,使用一組自然語言規(guī)則(文中叫做一部憲法),定義有害和無害內(nèi)容的類別,從而能夠快速適應(yīng)新的威脅模型。

(c) 這部憲法被用于生成合成數(shù)據(jù),再將這些數(shù)據(jù)用于訓(xùn)練。還使用無害輸入和輸出池,并結(jié)合數(shù)據(jù)增強(qiáng)技術(shù),以提高性能。

圖1a中的分類器是經(jīng)過微調(diào)的大型語言模型(LLMs),與提示式分類器相比,具有幾個(gè)優(yōu)勢(shì):微調(diào)不僅可以系統(tǒng)地解決漏洞,而且將大型語言模型專門化為分類任務(wù),還可以顯著減少計(jì)算開銷。

分類器訓(xùn)練數(shù)據(jù)

數(shù)據(jù)合成

階段 I:基于規(guī)則的合成數(shù)據(jù)生成

在給定規(guī)則的情況下,使用僅幫助模型(helpful-only model)生成涵蓋「憲法類別」的查詢。

接著,使用該模型為每個(gè)合成生成的輸入,生成有害和無害的輸出。

最后,使用提示式語言模型(prompted language model)過濾掉任何無意的拒絕,確保生成的輸入和輸出都符合要求。

階段 II:數(shù)據(jù)增強(qiáng)

為了提高合成數(shù)據(jù)的多樣性和覆蓋范圍,應(yīng)用了廣泛的數(shù)據(jù)增強(qiáng)技術(shù)。

這些「變換」在保持語義內(nèi)容的同時(shí),擴(kuò)展了輸入和輸出的多樣性,涵蓋了多個(gè)語言學(xué)維度,包含了如語言間翻譯、大型語言模型(LLM)基礎(chǔ)的改寫、系統(tǒng)提示變化、不同的越獄技術(shù),以及這些技術(shù)的組合等方法。

自動(dòng)化紅隊(duì)測試(ART)

為了生成額外的訓(xùn)練數(shù)據(jù),作者采用了下列論文中的自動(dòng)化紅隊(duì)測試(ART)。

論文鏈接:https://arxiv.org/pdf/2202.03286

通過描述已知的越獄技術(shù),來提示一個(gè)僅限于有益的語言模型,并要求該模型生成新的攻擊方法。并將上文提到的合成數(shù)據(jù)作為模型,用于紅隊(duì)測試的禁用查詢來源。

此外,允許ART方法生成長上下文和多輪攻擊,通過提示模型生成攻擊模板,并通過額外的語言模型調(diào)用來填充該模板

訓(xùn)練方法

輸入分類器

作者將輸入分類任務(wù)框架化為一個(gè)下一個(gè)token預(yù)測問題,并微調(diào)語言模型以執(zhí)行此任務(wù)。

具體來說,使用模板將整個(gè)輸入進(jìn)行包裝,該模板描述了任務(wù)。

兩個(gè)分類器使用的完整提示模板,參見下圖。

訓(xùn)練分類器以阻止那些試圖建立編碼通信或以其他方式模糊輸出的輸入,這樣輸出就無法在沒有輸入的情況下理解。

此外訓(xùn)練還包括了無害查詢的池集,以幫助最小化對(duì)合法輸入的誤報(bào)率。

輸出分類器

為了保持輸出流的能力,輸出分類器的一個(gè)關(guān)鍵要求是連續(xù)的token流(見圖 2)。

這對(duì)于延遲敏感型應(yīng)用(例如聊天或編程助手)尤為重要。

為此,微調(diào)一個(gè)語言模型,并添加一個(gè)線性值頭,該頭根據(jù)前綴token序列預(yù)測完整序列的有害性(見圖 2)。

如果分類器對(duì)給定 token 的預(yù)測得分超過設(shè)定的閾值,將阻止輸出并停止流式輸出。

這種方法能夠在采樣和token級(jí)預(yù)測過程中緩存中間激活,因此它是流式分類的特別高效方法。

圖 2:輸出分類器預(yù)測示例

與輸入分類器不同,在每個(gè)token位置,輸出分類器會(huì)對(duì)整個(gè)輸出序列的有害性做出預(yù)測。

這個(gè)預(yù)測用于評(píng)估是否應(yīng)在給定的token位置停止輸出流。在圖2中,數(shù)字表示的是基于單詞級(jí)別的預(yù)測,而非基于token級(jí)別的預(yù)測。

損失函數(shù)

假設(shè)token序列為t_{1:T},以及一個(gè)標(biāo)簽y,表示該完整序列是否有害。

我們的目標(biāo)是訓(xùn)練一個(gè)概率模型p(y=1|t_{1:T}),通過序列前綴序列來預(yù)測完整序列的標(biāo)簽y。

為此,需要最小化以下?lián)p失函數(shù):

其中,右式第一個(gè)函數(shù)是標(biāo)準(zhǔn)的下一個(gè)token預(yù)測損失,λ是正則化超參數(shù);右式第二個(gè)函數(shù)是二元交叉熵?fù)p失。

從直觀上看,上述損失函數(shù)鼓勵(lì)token級(jí)預(yù)測與完整序列標(biāo)簽y匹配,并使用序列t_{1:T}上的下一個(gè)token預(yù)測損失進(jìn)行正則化。

具體結(jié)果

紅隊(duì)成員采用了多樣的攻擊策略,但沒有紅隊(duì)報(bào)告取得全面成功。

在提交的113份越獄報(bào)告中,沒有任何一份成功回答了所有十個(gè)問題,并且其模型輸出所提供的細(xì)節(jié)至少與「僅幫助型」模型的輸出詳細(xì)度相當(dāng)。

雖然有九份報(bào)告在50%的細(xì)節(jié)閾值下為超過六個(gè)問題提供了實(shí)質(zhì)性的回答,但當(dāng)采用更嚴(yán)格的標(biāo)準(zhǔn),即要求回答提供與「僅幫助型」模型相匹配的詳細(xì)信息時(shí),沒有任何報(bào)告成功回答超過五個(gè)問題。

盡管參與者在根據(jù)評(píng)分標(biāo)準(zhǔn)反饋后有一次重新提交的機(jī)會(huì),以改善他們的越獄策略,但最終沒有出現(xiàn)一個(gè)能夠持續(xù)提取出與「僅幫助型」模型相當(dāng)詳細(xì)信息的通用越獄。

匯總報(bào)告顯示,最成功的紅隊(duì)員也只取得了有限的成果。

具體統(tǒng)計(jì)結(jié)果如下圖所示:

圖 4:憲法分類器在 3,000 小時(shí)人類紅隊(duì)測試中抵御通用型越獄攻擊

  • (A) 越獄報(bào)告成功率的分布,通過評(píng)估每份報(bào)告成功回答的目標(biāo)問題數(shù)量(共10個(gè)問題)。成功的評(píng)估有兩個(gè)標(biāo)準(zhǔn):一是回答內(nèi)容達(dá)到「幫助型模型輸出」的一半細(xì)節(jié)(橙色);二是與幫助型模型輸出的細(xì)節(jié)相似(紅色)。在任何報(bào)告中,沒有一份成功回答所有問題,且未達(dá)到兩個(gè)標(biāo)準(zhǔn)中的任何一個(gè)。
  • (B) 紅隊(duì)員成功率的分布,統(tǒng)計(jì)每個(gè)參與者在所有提交報(bào)告中的最佳表現(xiàn)。即便結(jié)合了多個(gè)嘗試的結(jié)果,也沒有紅隊(duì)員能夠在較為嚴(yán)格的標(biāo)準(zhǔn)下成功回答超過6個(gè)問題。
  • (C) 每個(gè)問題的漏洞分析。可以看到,在10個(gè)目標(biāo)問題中,越獄成功率有顯著的差異。對(duì)于最難攻破的問題,成功報(bào)告僅有4份,而最容易攻破的問題在半細(xì)節(jié)標(biāo)準(zhǔn)下成功報(bào)告超過30份。排除了28份不適用的報(bào)告。

這展示了憲法分類器系統(tǒng)在應(yīng)對(duì)通用型越獄攻擊時(shí)的表現(xiàn),表明盡管越獄攻擊仍然存在,但系統(tǒng)在多次紅隊(duì)測試中保持了高度的抗攻擊能力

文中也討論了新方法的局限等內(nèi)容。

AI模型真的安全嗎?

Anthropic新方法的相關(guān)推文,至少引來了100萬的瀏覽。

難道Anthropic真的「天下無敵」了嗎?

有網(wǎng)友表示,并非新方法太好,而是Anthropic落后于時(shí)代。

此外,俗話說:「重賞之下,必有勇夫」。

但網(wǎng)友表示1萬美元還是太少了,另一家AI公司的「賞金」可是100萬美元!

作者介紹

共同一作Jesse Mu是Anthropic的技術(shù)人員。他于2023年在斯坦福大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位。博士期間,曾在MIT LINGO實(shí)驗(yàn)室、FAIR 和 DeepMind 工作過。此前,在劍橋大學(xué)獲得高級(jí)計(jì)算機(jī)科學(xué)碩士學(xué)位,并獲得波士頓學(xué)院學(xué)士學(xué)位。

共同一作Jerry Wei是Anthropic的人工智能研究員。他曾是谷歌DeepMind的研究工程師和谷歌大腦的學(xué)生研究員。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-06 07:26:35

2023-04-12 12:52:29

2024-12-25 20:01:13

2024-10-23 19:47:54

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2024-04-03 13:32:24

2024-04-09 09:38:16

OpenAI模型

2023-10-18 17:07:21

AI 工具Claude 2

2015-08-21 09:14:40

大數(shù)據(jù)

2010-04-01 09:30:57

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2022-07-07 10:47:16

IngressKubernetes

2018-10-07 07:00:59

2022-12-08 13:00:10

AI性別偏見

2024-01-23 17:33:36

2009-07-31 08:56:59

ASP.NET頁面刷新

2023-07-06 15:29:52

數(shù)據(jù)中心能源回收

2011-12-01 14:15:19

信息優(yōu)化惠普

2010-06-18 09:48:22

2011-03-14 10:10:01

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 99re在线| 亚洲欧美一区二区在线观看 | 久久久久久国产免费视网址 | 国产精品久久久久久一区二区三区 | 成人国产精品久久久 | 欧美在线日韩 | 久久久亚洲一区 | 国产高清在线 | 精品国产一区二区三区久久影院 | 国产精品久久久久久久久久免费看 | 亚洲午夜精品视频 | 欧美日韩一区二区三区在线观看 | 久久国产精品-国产精品 | 五月婷婷激情网 | 婷婷国产一区二区三区 | 欧美v免费 | 91精品一区 | 91精品国产乱码久久蜜臀 | 中文字幕 国产精品 | 久在线视频播放免费视频 | 国产精品黄 | 国产精品久久久久久久粉嫩 | 在线观看欧美一区 | 视频一区二区在线观看 | 亚洲视频免费观看 | 日韩亚洲一区二区 | 亚洲 中文 欧美 日韩 在线观看 | 中文字幕日韩欧美一区二区三区 | 人人草人人干 | 国产精品久久一区二区三区 | 欧美老少妇一级特黄一片 | 99精品久久久久久久 | 免费v片在线观看 | 一区二区三区不卡视频 | 激情婷婷 | 久久男人 | 日本高清aⅴ毛片免费 | 成人在线视频免费看 | 国产成视频在线观看 | 欧美日韩在线一区二区三区 | h视频在线播放 |