成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

USENIX Sec'25 | LLM提示詞注入攻擊如何防?UC伯克利、Meta最新研究來了

人工智能 安全
LLM 強(qiáng)大的語言能力,使其被廣泛部署于 LLM 應(yīng)用系統(tǒng)(LLM-integrated applications)中。此時(shí),LLM 需要訪問外部數(shù)據(jù)(如文件,網(wǎng)頁,API 返回值)來完成任務(wù)。

本文介紹對(duì) LLM 提示詞注入攻擊(prompt injection)的通用防御框架。首篇論文已被安全頂會(huì) USENIX Security 2025 接收,第一作者陳思哲是 UC Berkeley 計(jì)算機(jī)系博士生,Meta FAIR 訪問研究員,研究興趣為真實(shí)場景下的 AI 安全。他的導(dǎo)師是 David Wagner (UCB), 郭川 (Meta), Nicholas Carlini (Google)。

一作主頁:https://sizhe-chen.github.io

圖片

項(xiàng)目報(bào)告 slides:https://drive.google.com/file/d/1baUbgFMILhPWBeGrm67XXy_H-jO7raRa/view?usp=sharing

  • 論文地址:https://arxiv.org/pdf/2402.06363
  • 項(xiàng)目主頁:https://sizhe-chen.github.io/StruQ-Website
  • 代碼倉庫:https://github.com/Sizhe-Chen/StruQ

  • 論文地址:https://arxiv.org/pdf/2410.05451
  • 項(xiàng)目主頁:https://sizhe-chen.github.io/SecAlign-Website
  • 代碼倉庫:https://github.com/facebookresearch/SecAlign

提示詞注入攻擊:背景

LLM 強(qiáng)大的語言能力,使其被廣泛部署于 LLM 應(yīng)用系統(tǒng)(LLM-integrated applications)中。此時(shí),LLM 需要訪問外部數(shù)據(jù)(如文件,網(wǎng)頁,API 返回值)來完成任務(wù)。在這個(gè)交互場景下,有以下三方:

  • 指令(可信的):來自 LLM 應(yīng)用系統(tǒng)開發(fā)者
  • 模型(可信的):來自開發(fā)者或 API 供應(yīng)方
  • 數(shù)據(jù)(不可信的):來自外部或第三方

系統(tǒng)對(duì)外部數(shù)據(jù)源的訪問,提供了全新的攻擊視角:攻擊者可以在第三方數(shù)據(jù)中,注入額外的指令,以覆蓋 LLM 應(yīng)用的原指令。如下圖所示,餐廳 A 的老板在點(diǎn)評(píng)網(wǎng)站 yelp 上,發(fā)布一條含有提示詞注入攻擊的評(píng)論,誤導(dǎo) LLM 忽視其原指令(推薦一些好餐廳),轉(zhuǎn)而推薦風(fēng)評(píng)不佳的餐廳 A。

提示詞注入攻擊,被 OWASP 安全社區(qū)列為對(duì) LLM 應(yīng)用系統(tǒng)的最大威脅 [1],對(duì)更廣泛的 LLM 應(yīng)用造成重大安全阻礙。部署的工業(yè)級(jí) LLM 應(yīng)用系統(tǒng)(Google Docs [2], Slack AI [3], ChatGPT [4]),經(jīng)測試可以被提示詞注入攻擊攻破,造成私有內(nèi)容的泄露。

提示詞注入攻擊:原因

第一個(gè)原因:LLM 輸入中,沒有分離指令和數(shù)據(jù),二者被直接拼接為單個(gè) LLM 輸入。

對(duì)此,我們提出一個(gè)安全前端(secure front-end),在組織 LLM 輸入時(shí),顯式分離指令和數(shù)據(jù)。

第二個(gè)原因:LLM 訓(xùn)練中,模型被教導(dǎo)遵循輸入中的任意指令。

對(duì)此,我們提出結(jié)構(gòu)化指令微調(diào)(structured instruction tuning)和安全對(duì)齊(secure alignment),訓(xùn)練 LLM 識(shí)別安全前端組織的輸入,從中生成高質(zhì)量的輸出,并對(duì)提示詞注入攻擊魯棒。

防御策略 1:安全前端

在 LLM 輸入上,我們?cè)O(shè)計(jì)只能被系統(tǒng)使用的分隔符(delimiters),分離指令和數(shù)據(jù)。安全前端會(huì)留出一些 LLM special tokens(如下圖中的 [MARK], [INST], ...),用于指令 / 數(shù)據(jù)分離,并刪除數(shù)據(jù)部分可能含有的特殊分隔符,使其僅能被 LLM 應(yīng)用系統(tǒng)(而非數(shù)據(jù)提供方 / 攻擊者)所使用。

防御策略 2:結(jié)構(gòu)化指令微調(diào)

在 LLM 訓(xùn)練時(shí),我們模擬提示詞注入攻擊,教導(dǎo)模型忽視任何在數(shù)據(jù)中的注入指令,僅遵循 LLM 應(yīng)用系統(tǒng)的原指令(由安全前端分離并定義)。具體來說,我們從原指令微調(diào)數(shù)據(jù)集,生成一個(gè)新的 “結(jié)構(gòu)化指令微調(diào)數(shù)據(jù)集”,其部分包含帶提示詞注入攻擊的樣本,如下圖所示。在此數(shù)據(jù)集上,我們利用標(biāo)準(zhǔn) SFT(supervised fine-tuning)算法微調(diào)模型。

防御策略 3:安全對(duì)齊

在 LLM 訓(xùn)練時(shí),除了指令微調(diào),還有對(duì)齊這一步驟,我們同樣可以在此做防御。安全對(duì)齊構(gòu)建一個(gè)偏好數(shù)據(jù)集(preference dataset),對(duì)于每一個(gè) SFT 數(shù)據(jù)集中的樣本:

  • 采樣另一個(gè)隨機(jī)樣本 s',用于模擬提示詞注入攻擊
  • 偏好數(shù)據(jù)集中,LLM 輸入是被注入了 s' 指令的樣本 s
  • 偏好數(shù)據(jù)集中,LLM 理想輸出是對(duì) s 指令的回復(fù)
  • 偏好數(shù)據(jù)集中,LLM 不良輸出是對(duì) s' 指令的回復(fù)

在此數(shù)據(jù)集上,我們利用標(biāo)準(zhǔn)偏好優(yōu)化(direct preference optimization)算法微調(diào)模型。

提示詞注入攻擊:防御結(jié)果

防御策略 1+2 被稱為 StruQ (USENIX Sec'25),防御策略 1+3 被稱為 SecAlign。

如下圖所示,StruQ/SecAlign 模型保持和未防御模型相同的性能(general-purpose utility by AlpacaEval2 WinRate)。

對(duì)于無優(yōu)化的提示詞注入攻擊,StruQ 模型實(shí)現(xiàn)了 < 2% 攻擊成功率,SecAlign 實(shí)現(xiàn) 0% 攻擊成功率(Max ASR Opt.-Free)。

對(duì)于基于優(yōu)化的提示詞注入攻擊,StruQ 顯著降低其成功率,SecAlign 又進(jìn)一步將成功率降低 4 倍以上,到 15% 以下(Max ASR Opt.-Based)。

提示詞注入攻擊:防御總結(jié)

我們提出提示詞注入攻擊成功的兩個(gè)原因,并逐一對(duì)它們?cè)O(shè)計(jì)防御。

由于 LLM 輸入中,沒有分離指令和數(shù)據(jù),我們提出安全前端(secure front-end),在組織 LLM 輸入時(shí),用只能被系統(tǒng)所用的分隔符,分離指令和數(shù)據(jù)。

由于 LLM 訓(xùn)練中,模型被教導(dǎo)遵循輸入中的任意指令,我們提出結(jié)構(gòu)化指令微調(diào)(structured instruction tuning)和安全對(duì)齊(secure alignment),訓(xùn)練模型只遵循 LLM 應(yīng)用系統(tǒng)設(shè)計(jì)的指令。

以下是三個(gè)防御策略,在模型訓(xùn)練 pipeline 中的位置。

[1] https://owasp.org/www-project-top-10-for-large-language-model-applications。

[2] https://embracethered.com/blog/posts/2023/google-bard-data-exfiltration。

[3] https://promptarmor.substack.com/p/data-exfiltration-from-slack-ai-via。

[4] https://thehackernews.com/2024/09/chatgpt-macos-flaw-couldve-enabled-long.html。

責(zé)任編輯:姜華 來源: 機(jī)器之心
相關(guān)推薦

2024-11-26 13:40:00

2024-02-05 13:28:14

AI音頻虛擬人像

2025-04-30 09:09:00

2025-01-24 15:30:00

2025-06-25 16:09:40

機(jī)器人AI訓(xùn)練

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2022-01-27 09:47:12

計(jì)算機(jī)MIT

2023-11-14 07:47:42

IGN擴(kuò)散模型

2025-06-03 08:38:00

2025-01-22 15:21:00

2023-05-16 13:32:23

模型排行

2024-03-25 08:30:00

AI數(shù)據(jù)

2023-04-07 09:28:31

模型訓(xùn)練

2023-04-04 13:17:00

GPUCMU開源

2025-04-18 08:42:52

模型推理AI

2023-05-04 14:55:02

模型AI

2023-12-16 09:49:18

2023-08-05 13:45:46

模型AI

2025-05-06 15:31:55

智能模型AI

2024-07-31 15:38:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美国产一区二区 | 蜜桃视频一区二区三区 | 天天宗合网 | 在线色网| 一级黄色片免费 | 一级aaaa毛片 | 手机三级电影 | 国产成人精品久久二区二区91 | 精品国产一二三区 | 黄色免费av | 久久这里只有精品首页 | 蜜臀网| 天天操天天插 | 91视视频在线观看入口直接观看 | 伊人手机在线视频 | 久久国产区 | 色视频在线播放 | 亚洲在线一区二区三区 | 91久久精品视频 | 欧美看片 | 91精品国产91久久久久久丝袜 | 久久国产亚洲 | 国产成人99久久亚洲综合精品 | 欧洲免费视频 | 超碰精品在线 | 久久最新 | 俺去俺来也www色官网cms | 欧美日韩成人在线 | 99久久精品视频免费 | 国产综合精品一区二区三区 | 免费看一区二区三区 | 一区二区三区四区不卡 | 九九热免费视频在线观看 | 日韩精品一区二区三区中文字幕 | 99re在线观看 | 亚洲精品乱码久久久久久9色 | 国产欧美精品一区二区三区 | 欧美理论 | 一区二区在线不卡 | 成人免费网站 | 免费观看av|