看似無害的提問，也能偷走RAG系統的記憶——IKEA：隱蔽高效的數據提取攻擊新范式

2025-06-05 08:20:00

本研究聚焦于當前廣泛應用的 RAG (Retrieval-Augmented Generation) 系統，提出了一種全新的黑盒攻擊方法：隱式知識提取攻擊 (IKEA)。

本文作者分別來自新加坡國立大學、北京大學與清華大學。第一作者王宇豪與共同第一作者屈文杰來自新加坡國立大學，研究方向聚焦于大語言模型中的安全與隱私風險。共同通訊作者為北京大學翟勝方博士，指導教師為新加坡國立大學張嘉恒助理教授。

本研究聚焦于當前廣泛應用的 RAG (Retrieval-Augmented Generation) 系統，提出了一種全新的黑盒攻擊方法：隱式知識提取攻擊 (IKEA)。不同于以往依賴提示注入 (Prompt Injection) 或越獄操作 (Jailbreak) 的 RAG 提取攻擊手段，IKEA 不依賴任何異常指令，完全通過自然、常規的查詢，即可高效引導系統暴露其知識庫中的私有信息。

在基于多個真實數據集與真實防御場景下的評估中，IKEA 展現出超過 91% 的提取效率與 96% 的攻擊成功率，遠超現有攻擊基線；此外，本文通過多項實驗證實了隱式提取的 RAG 數據的有效性。本研究揭示了 RAG 系統在表面「無異常」交互下潛在的嚴重隱私風險。

本研究的論文與代碼已開源。

論文題目：Silent Leaks: Implicit Knowledge Extraction Attack on RAG Systems through Benign Queries
論文鏈接：https://arxiv.org/pdf/2505.15420
代碼鏈接：https://github.com/Wangyuhao06/IKEA.git

總述

大語言模型 (LLMs) 近年來在各類任務中展現出強大能力，但它們也面臨一個核心問題：無法直接訪問最新或領域特定的信息。為此，RAG (Retrieval-Augmented Generation) 系統應運而生——它為大模型接入外部知識庫，讓生成內容更準確、更實時。

然而，這些知識庫中往往包含私有或敏感信息。一旦被惡意利用，可能導致嚴重的數據泄露。以往的攻擊方式多依賴明顯的「惡意輸入」，比如提示注入或越獄攻擊。這類攻擊雖然有效，但也有著輸入異常、輸出重復等典型特征，容易被防御系統識別和攔截。

圖1: 使用惡意查詢進行逐字信息提取與使用良性查詢進行知識提取 (IKEA) 之間的對比

為突破防御機制對現有提取攻擊的限制，本文提出了一種全新的隱式知識抽取框架：IKEA (Implicit Knowledge Extraction Attack)。該方法不依賴任何越權指令或特異化提示語，而是通過自然、常規的查詢輸入，逐步引導 RAG 系統暴露其內部知識庫中的私有或敏感信息。IKEA 的攻擊流程具備高度自然性與隱蔽性。

其核心步驟包括：首先，基于已知的系統主題構建一組語義相關的錨點概念 (Anchor concepts)；隨后，圍繞這些概念生成符合自然語言習慣的問題，用于觸發系統檢索相關文檔；最終，通過兩項關鍵機制對攻擊路徑進行優化與擴展：

經驗反思采樣 (Experience Reflection Sampling)：依據歷史查詢與響應記錄，動態評估并篩選出更可能產生有效響應的錨點概念，從而提升查詢的相關性與信息提取率；
可信域有向變異 (Trust Region Directed Mutation)：在錨點語義鄰域中進行定向概念擴展，通過控制語義相似度與突進性，實現對尚未覆蓋知識區域的持續探索。

上述機制協同工作，使得攻擊過程在保持輸入自然性的同時，能夠在多輪交互中高效提取 RAG 系統所依賴的外部知識內容。實驗證明，IKEA 可在常規輸入檢測與輸出過濾等防御機制下維持高成功率與提取效率，展現出強大的魯棒性與現實威脅潛力。

方法概覽：如何實現「看似正常」的提問？

具體而言，IKEA 首先從與系統主題相關的概念詞中篩選出可能有效的錨點概念，并結合歷史響應信息過濾無關或無效的概念。

錨點概念數據庫的初始化如下：

隨后，系統圍繞這些錨點概念自動生成語義自然、表達通順的問題，引導 RAG 返回內容豐富的答案，從而在多輪交互中不斷擴大對隱私知識的覆蓋。這種策略使攻擊過程更加隱蔽，難以被傳統檢測手段發現。下文給出了「良性」問題的具體生成方式：

該方法設計了兩項關鍵機制以確保知識提取效率：

經驗反思采樣 (Experience Reflection Sampling)
可信域有向變異 (Trust Region Directed Mutation, TRDM)

經驗反思采樣 (Experience Reflection Sampling)

在 IKEA 的攻擊過程中，攻擊者會維護一個歷史記錄，用于記錄每輪的查詢–響應對。系統會根據這些歷史信息判斷哪些錨點概念是無效的，即無法引導 RAG 返回有用知識。該判斷依據包括：

響應內容為「拒答」類信息 (如「我不知道」)，則對應查詢被視為域外樣本 (outlier)；
查詢與響應之間的語義相似度低于閾值，視為不相關樣本 (unrelated)。

每個候選錨點概念的采樣概率由如下懲罰得分函數定義：

最終的采樣概率為：

可信域有向變異 (Trust Region Directed Mutation)

圖 2: (左) IKEA 整體流程圖；(右) TRDM 示意圖

為了進一步覆蓋 RAG 知識庫中的未知區域，IKEA 提出了 TRDM 機制。該機制的核心思想是：從當前有效的查詢-響應對出發，在其「語義可信域」內搜索一個新的錨點詞，以引導提問逐步邁向尚未被覆蓋的知識區域。具體地，TRDM 利用多個查詢-響應對之間的相似度來估計從原始查詢指向潛在 RAG 數據條目的「方向」。通過控制新的錨點概念位于響應語義鄰域內，并在該鄰域中尋找與原始查詢最不相似的詞項，TRDM 實現了「沿語義方向移動錨點」，以探索新的知識片段。其定義如下：

其中：

是由語言模型生成的詞集合，
是與響應的相似度高于的區域。

此外，為避免錨點詞在同一語義區域內發生無效重復生成，IKEA 定義了變異停止函數，當以下任一條件滿足時返回 True，停止變異：

TRDM 會持續迭代執行，直到返回 True，隨后重新從中采樣進行下一輪探索。

實驗結果：IKEA 的提取效率遠超基線方法

研究團隊在三個不同領域數據集 (醫療-HealthCareMagic100k、小說-HarryPotter、百科-Pokémon) 上測試了 IKEA 攻擊效果。以下是 IKEA 與其他攻擊方法在「無防御」、「輸入檢測」、「輸出過濾」三種防御策略下的比較：

表 1: 在三種數據集上不同防御策略下的攻擊效果對比分析

提取知識是否「有用」？

研究團隊圍繞知識有效性開展了兩類實驗：其一，評估提取出的知識在對應文檔相關的問答任務中的表現；其二，評估在有限輪次攻擊下所提取知識對完整知識庫的覆蓋與支撐能力。實驗結果表明，IKEA 不僅能夠高效提取 RAG 系統中的信息，而且所提取的知識在問答任務中展現出良好的實用性，其性能接近于使用原始知識庫時的表現。

提取知識有效性評估。我們在三個數據集上評估 IKEA 提取知識在 MCQ 與 QA 任務中的效果，并與原始片段和無參考場景進行對比。結果顯示，在雙重防御下提取的知識顯著提升了回答的準確性與質量。Extracted 表示使用 IKEA 提取的文本片段構建的知識庫，Origin 代表評估數據集中原始的參考片段，Empty 則表示在回答問題時未提供任何參考上下文。

圖 3: 在三種不同知識庫設定下的選擇題 (MCQ) 與問答 (QA) 任務結果對比

表 2: 在不同防御與不同基線下提取的知識作為參考的選擇題與問答任務結果對比

使用提取知識構建的替代 RAG 系統進行在完整 Pokémon 數據集上評估。IKEA 提取的知識用于多項選擇 (MCQ) 和開放式問答 (QA) 任務時，表現顯著優于其他攻擊方法：

表 3: 基于不同攻擊方法提取數據構建的 RAG 系統在完整知識庫上的評估結果

總結

IKEA 攻擊提出了一種全新且高度隱蔽的 RAG 系統攻擊范式。借助自然語言生成策略與基于歷史交互的經驗反饋機制，IKEA 能有效規避現有輸入與輸出層面的防御措施，實現對系統中敏感知識的持續、高效提取。本研究揭示了 RAG 系統在知識提取上的潛在脆弱性，為后續更全面的防御機制設計提供了關鍵參考。

責任編輯：張燕妮來源：機器之心

模型數據代碼

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看