成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一個(gè)提示攻破所有模型,OpenAI谷歌無一幸免!

人工智能 新聞
多年來,生成式AI供應(yīng)商一直向公眾保證,大語(yǔ)言模型符合安全準(zhǔn)則,并加強(qiáng)了對(duì)產(chǎn)生有害內(nèi)容的侵害。然而,一種看似簡(jiǎn)單但非常有效的提示詞策略,能夠讓所有主流大模型開啟「無限制模式」。

如果一句不足200字的提示詞系統(tǒng)就能輕松撕開頂級(jí)大模型的安全護(hù)欄,讓ChatGPT、Claude、Gemini統(tǒng)統(tǒng)「叛變」,你會(huì)作何感想?

這正是HiddenLayer最新研究拋出的震撼炸彈——一種跨模型、跨場(chǎng)景、無需暴力破解的「策略傀儡」提示。

只需把危險(xiǎn)指令偽裝成XML或JSON配置片段,再配上一段看似無害的角色扮演,大模型便乖乖奉上危險(xiǎn)答案,連系統(tǒng)提示都能原封不動(dòng)「倒帶」出來。

生成式AI如今被一條短短字符串制服。

萬(wàn)能越獄提示詞如何生成

所有主要的生成式AI模型都經(jīng)過專門訓(xùn)練,可以拒絕響應(yīng)用戶讓生成有害內(nèi)容的請(qǐng)求,例如與化學(xué)、生物、放射和核武器、暴力和自殘相關(guān)的內(nèi)容。

這些模型通過強(qiáng)化學(xué)習(xí)進(jìn)行了微調(diào),在任何情況下都不會(huì)輸出或美化此類內(nèi)容,即使用戶以假設(shè)或虛構(gòu)場(chǎng)景的形式提出間接請(qǐng)求也是如此。

盡管如此,讓大模型越獄繞過安全護(hù)欄,仍然是可行的,只是這里的方案,在各種大模型間并不通用。

然而,近日來自HiddenLayer的研究人員,開發(fā)了一種既通用又可轉(zhuǎn)移的提示技術(shù),可用于從所有主流大模型,包括Deepseek ,ChatGPT,Claude ,Gemini,Lemma,Qwen等生成幾乎任何形式的有害內(nèi)容。

即使是經(jīng)過RLHF對(duì)齊的推理模型,也能輕松攻破。

具體是如何做到的,這里為了安全起見,只講述原理,而不給出具體案例。

我們知道模型在訓(xùn)練時(shí),會(huì)忽略安全相關(guān)的指令,而該策略正利用了這一點(diǎn),該策略通過將過將提示重新表述為類似于幾種類型的策略文件(如XML、INI或JSON)之一,可以欺騙大模型來忽視安全限制,如下圖所示。

這樣的提示詞也不必太長(zhǎng),只需要200個(gè)字符即可,甚至無需嚴(yán)格遵照xml的格式要求。

圖片

圖1:圖中前述是提示詞,之后是大模型的回復(fù),而在正常情況下,該大模型被設(shè)置為不提供個(gè)人醫(yī)療建議

一種通用破解策略有多危險(xiǎn)

由于這種技術(shù)利用了在教學(xué)或策略相關(guān)數(shù)據(jù)上訓(xùn)練的大模型時(shí)的系統(tǒng)性弱點(diǎn),根植于訓(xùn)練數(shù)據(jù)中,因此它不像簡(jiǎn)單的代碼缺陷那么容易修復(fù)。

同時(shí)該策略能很容易的于適應(yīng)新的場(chǎng)景和模型,具有極高的可擴(kuò)展性,幾乎可以用于所有模型,而無需任何修改。

與早期依賴于特定模型的漏洞或暴力工程的攻擊技術(shù)不同,該策略會(huì)欺騙模型將有害命令解釋為合法的系統(tǒng)指令。再加上虛構(gòu)的角色扮演場(chǎng)景,這類提示詞不僅逃避安全限制,而且經(jīng)常迫使模型輸出有害信息。

例如,該策略依賴虛構(gòu)場(chǎng)景來繞過安全審核機(jī)制。

提示詞被框定為電視劇(如House M.D.)中的場(chǎng)景,其中角色詳細(xì)解釋如何制造炭疽孢子或濃縮鈾。使用虛構(gòu)角色和編碼語(yǔ)言掩蓋了內(nèi)容的有害性質(zhì)。

這種方法利用了大模型的一個(gè)本質(zhì)缺陷:當(dāng)對(duì)齊線索被顛覆時(shí),它們無法區(qū)分故事和指令。這不僅僅是對(duì)安全過濾器的規(guī)避,而是完全改變了模型對(duì)它被要求做什么的理解。

更令人不安的是該技術(shù)提取系統(tǒng)提示的能力,系統(tǒng)提示是控制大模型行為方式的核心指令集。

這些通常受到保護(hù),因?yàn)樗鼈儼舾兄噶睢踩s束,在某些情況下,還包含專有邏輯甚至硬編碼警告。

通過巧妙地改變角色扮演,攻擊者可以讓模型逐字輸出其整個(gè)系統(tǒng)提示。這不僅暴露了模型的邊界,還為制定更具針對(duì)性的攻擊提供了藍(lán)圖。

大模型廠商需要做些什么

這樣一個(gè)通用的越獄策略,對(duì)于大模型廠商不是好消息。

在醫(yī)療保健等領(lǐng)域,它可能會(huì)導(dǎo)致聊天機(jī)器人助手提供他們不應(yīng)該提供的醫(yī)療建議,暴露私人患者數(shù)據(jù)。在金融領(lǐng)域,敏感的客戶信息可能泄露;在制造業(yè)中,受攻擊的AI可能會(huì)導(dǎo)致產(chǎn)量損失或停機(jī);在航空領(lǐng)域,則可能會(huì)危及維護(hù)安全。

對(duì)此,可能的解決方案不是費(fèi)時(shí)費(fèi)力的微調(diào),通過對(duì)齊確保大模型安全的時(shí)代可能已經(jīng)結(jié)束,攻擊手段的進(jìn)化速度,已經(jīng)不適合靜態(tài)的,一勞永逸的防護(hù)措施。

要確保安全,需要持續(xù)地智能監(jiān)控。大模型提供商需要開放一個(gè)外部AI監(jiān)控平臺(tái),例如發(fā)現(xiàn)該策略的HiddenLayer提出的AISec解決方案。

該方案會(huì)像電腦病毒入侵檢測(cè)系統(tǒng)一樣,持續(xù)掃描并及時(shí)修復(fù)發(fā)現(xiàn)的濫用和不安全輸出。該方案可使大模型提供商能夠?qū)崟r(shí)響應(yīng)新威脅,而無需修改模型本身。

圖片

圖2:AISec的監(jiān)控界面及檢測(cè)到的越獄提示詞

總之,發(fā)現(xiàn)能攻破所有大模型的越獄提示詞,凸顯了大語(yǔ)言模型中的一個(gè)重大漏洞,它允許攻擊者生成有害內(nèi)容、泄露或繞過系統(tǒng)指令以及劫持智能體。

作為第一個(gè)適用于幾乎所有前沿AI模型的越獄提示詞模板,該策略的跨模型有效性表明,用于訓(xùn)練和對(duì)齊大模型的數(shù)據(jù)和方法仍然存在許多根本缺陷,需要額外的安全工具和檢測(cè)方法來確保LLM的安全。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-10-21 12:53:52

AI模型

2023-11-07 07:00:37

2024-08-27 13:30:00

2009-06-10 15:08:31

2024-05-07 13:40:41

2023-07-28 13:50:53

2023-10-24 19:06:44

數(shù)據(jù)模型

2020-12-16 19:11:35

人工智能AI

2023-09-23 12:34:11

AI模型

2018-12-28 10:15:15

云宕機(jī)事故云計(jì)算

2024-04-03 12:13:58

2015-03-22 09:22:51

2024-12-11 13:30:00

2019-12-27 15:38:36

AI人工智能人臉識(shí)別

2024-04-03 13:26:41

2022-10-10 17:00:19

地址內(nèi)核函數(shù)

2018-12-21 15:38:01

2025-03-10 11:38:42

2023-10-18 13:17:12

AI芯片英偉達(dá)美國(guó)

2021-12-13 17:44:51

程序員漏洞開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲视频中文字幕 | 国产欧美精品一区二区三区 | 久久小视频 | 日韩欧美一区二区三区免费观看 | 亚洲综合日韩精品欧美综合区 | 久草免费在线视频 | 国产精品亚洲欧美日韩一区在线 | 国内91在线| 欧美国产精品一区二区三区 | 亚洲精品一区中文字幕乱码 | 欧美freesex黑人又粗又大 | 日韩一区二区三区在线 | 国产精品成人在线播放 | 国产精品久久久久久久久久久久久 | 欧美激情国产日韩精品一区18 | 国产亚洲精品美女久久久久久久久久 | 日韩在线中文字幕 | 天天干天天爱天天操 | 国产一区二区在线播放 | 成人午夜激情 | 一区二区视频在线 | 日韩在线观看 | 国产一区二区影院 | 日韩精品一区二区三区在线观看 | 日韩高清一区 | 日韩第一区 | 精品欧美一区二区在线观看视频 | 99久久婷婷国产综合精品电影 | а_天堂中文最新版地址 | 精品国产乱码久久久久久丨区2区 | 美女视频一区 | 免费毛片www com cn| 久久久久久久国产精品视频 | 中文在线一区二区 | 福利在线看 | 在线观看视频一区 | 自拍 亚洲 欧美 老师 丝袜 | 亚洲成av| 亚洲精品天堂 | 日韩中文欧美 | 日日摸日日添日日躁av |