成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

集體暴雷!自動化攻擊可一分鐘內越獄主流大語言模型

安全 數據安全 人工智能
大語言模型應用面臨的兩大安全威脅是訓練數據泄漏和模型濫用(被應用于網絡犯罪、信息操弄、制作危險品等違法活動)。

大語言模型應用面臨的兩大安全威脅是訓練數據泄漏和模型濫用(被應用于網絡犯罪、信息操弄、制作危險品等違法活動)。

本周內,這兩大安全威脅相繼“暴雷”。

本周一,GoUpSec曾報道研究人員成功利用新的數據提取攻擊方法從當今主流的大語言模型(包括開源和封閉,對齊和未對齊模型)中大規模提取訓練數據。

本周四,Robust Intelligence和耶魯大學人工智能安全研究人員公布了一種機器學習技術,可以自動化方式,一分鐘內越獄包括GPT-4在內的主流大型語言模型(無論模型是否開源,是否對齊)。

沒有大語言模型能夠幸免

“這種(自動越獄)攻擊方法被稱為修剪攻擊樹(TAP),可誘導GPT-4和Llama-2等復雜模型對用戶的查詢回復數百個包含有害、違規內容或不安全響應(例如:“如何在短短幾分鐘內制造出一枚炸彈”。各主流模型的攻擊測試統計結果如下(GPT4的提示越獄成功率高達90%):

測試結果表明,這個越獄漏洞在大語言模型技術中普遍存在,且沒有明顯的修復方法。

自動對抗性機器學習攻擊技術

目前,針對基于大語言模型的人工智能系統有多種攻擊策略,例如:

提示注入攻擊,即使用精心設計的提示誘導模型“吐出”違反其安全規則的答案。

人工智能模型也可能被設置后門(在觸發時生成不正確的輸出),其敏感訓練數據會被提取或中毒。模型可能會與對抗性樣本“混淆”,即觸發意外(但可預測)輸出的輸入。

Robust Intelligence和耶魯大學研究人員發現的自動對抗性機器學習技術屬于對抗性樣本“混淆”攻擊,可突破大語言模型的安全護欄。

用魔法打敗魔法

研究人員解釋說:“(該方法)利用采用先進的語言模型來增強人工智能網絡攻擊,該攻擊模型能不斷完善有害指令,使攻擊隨著時間的推移變得更加有效,最終導致目標模型破防。”

“該流程涉及初始提示的迭代細化:在每一輪查詢中,攻擊模型都會對初始攻擊進行改進。該模型使用前幾輪的反饋來迭代出新的攻擊查詢。每種改進的方法都會經過一系列檢查,以確保其符合攻擊者的目標,然后針對目標系統進行評估。如果攻擊成功,則該流程結束。如果沒有,它會迭代生成新的策略,直到成功為止。”

這種針對大語言模型的越獄方法是自動化的,可以用于開源和閉源模型,并且能通過最小化查詢數量進行優化,以盡可能隱蔽。

研究人員針對多種主流大語言模型(包括GPT、GPT4-Turbo和PaLM-2)測試了該技術,攻擊模型只用少量查詢就成功為80%的查詢找到有效的越獄提示,平均查詢數不到30次。

研究人員表示,該方法顯著改進了此前使用可解釋提示來越獄黑盒大語言模型的自動化方法。”

大語言模型的安全競賽

人工智能軍備競賽已經進入白熱化階段,科技巨頭們每隔幾個月就會推出新的專業大語言模型(例如Twitter和Google近日先后發布的Grok和Gemini)爭奪人工智能市場的領導地位。

與此同時,大語言模型的“黑盒屬性”和“野蠻生長”導致其安全風險驟增,生成式人工智能技術已經快速滲透到各種產品、服務和技術中,業務用例不斷增長,相關內容安全和(針對AI和利用AI)網絡安全攻擊事件勢必將呈現爆發式增長。

網絡安全業界對大語言模型漏洞研究的“安全競賽”也已緊鑼密鼓地展開。例如,谷歌成立了專門針對人工智能的紅隊,并擴大了其漏洞賞金計劃以覆蓋與人工智能相關的威脅。微軟還邀請漏洞獵人來探究在其產品線中集成Copilot的各種安全風險。

今年早些時候,黑客大會DEF CON的AI Village邀請了全球頂級的黑客和紅隊成員測試來自Anthropic、Google、Hugging Face、NVIDIA、OpenAI、Stability和Microsoft的大語言模型,發現這些模型普遍存在容易被濫用的漏洞(泄漏數據、編造和傳播謠言、用于實施監控和間諜活動等)。


責任編輯:華軒 來源: GoUpSec
相關推薦

2017-03-30 19:28:26

HBase分布式數據

2009-09-21 16:20:12

2017-02-21 13:00:27

LoadAverage負載Load

2018-07-31 16:10:51

Redo Undo數據庫數據

2018-06-26 05:23:19

線程安全函數代碼

2017-07-06 08:12:02

索引查詢SQL

2020-05-21 19:46:19

區塊鏈數字貨幣比特幣

2022-07-18 06:16:07

單點登錄系統

2018-12-12 22:51:24

Java包裝語言

2020-07-17 07:44:25

云計算邊緣計算IT

2016-09-12 17:28:45

云存儲應用軟件存儲設備

2020-07-09 07:37:06

數據庫Redis工具

2011-02-21 17:48:35

vsFTPd

2024-06-21 15:03:00

2015-11-12 10:32:40

GitHub控制系統分布式

2016-12-16 11:05:00

分布式互斥線程

2021-08-06 08:50:45

加密貨幣比特幣區塊鏈

2018-03-27 09:28:33

緩存策略系統

2020-06-11 08:04:12

WDMDWDMMWDM

2013-11-15 07:24:50

4G LTE圖解
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品一级 | 国产一区二区免费在线 | 成人三级视频 | 毛色毛片免费看 | 在线国产精品一区 | 一级毛片视频在线观看 | 伊人在线 | 国产精品成人一区二区三区 | 成人精品一区二区三区四区 | 日韩在线免费视频 | 久久精品欧美一区二区三区麻豆 | 久久精品亚洲一区二区三区浴池 | 国产精品99久久久久久动医院 | 久久av一区 | 在线婷婷 | 久久精品国产一区二区电影 | 欧美a在线看 | 久久久精彩视频 | 国产成人免费在线 | 久久精品国产一区 | 久久国产亚洲 | 亚洲人成人一区二区在线观看 | 久久久123 | 91精品国产乱码久久久久久 | 91欧美精品成人综合在线观看 | 亚洲精品视频免费观看 | 欧美日韩一区二区在线 | 中文字幕日韩专区 | 日韩视频中文字幕 | 视频在线一区二区 | 一级免费视频 | 精品国产一区二区三区观看不卡 | 日日碰狠狠躁久久躁96avv | 国产精品久久网 | 免费在线观看一区二区三区 | 亚洲一区二区三区四区五区中文 | 国产精品成av人在线视午夜片 | 欧美理论| 成人免费激情视频 | 黄色av大片 | 99久久久久久 |