最新RAG綜述來了！北京大學發布AIGC的檢索增強技術綜述

發布于 2024-3-28 12:33

瀏覽

1收藏

近期，RAG（Retrieval-Augmented Generation）在 AI 領域引起了廣泛關注，成為了眾多研究者和開發者熱議的焦點。

作為一種將檢索與生成相結合的技術，RAG 展示了在各種任務中，如問答、對話生成和文本摘要等，取得卓越成果的潛力。它的出現為解決復雜問題提供了新的視角，使得人工智能在理解和回應用戶需求方面更加精準和高效。RAG 的重要性不容忽視，它為 AI 領域帶來了創新的思路和突破性的進展。

越來越多的研究者和開發者開始關注并投入到 RAG 的研究與應用中，以期在未來的智能對話系統中實現更高水平的性能。例如，OpenAI 為 GPT-4 集成了 web browsing 選項，騰訊將 RAG 技術結合到混元模型的實際應用場景當中，百川也積極使用 RAG 技術構建垂直領域大模型，百度 AI 對話也是在百度知識增強大語言模型文心一言的基礎上集成了搜索引擎返回的結果。因此，RAG 的火爆程度和重要地位已經深入人心，預示著它將在 AI 領域持續發揮關鍵作用。

針對如此火爆的 RAG，來自北京大學崔斌教授帶領的數據與智能實驗室（PKU-DAIR）系統調研現有 RAG 技術，覆蓋了近 300 篇相關論文，發布綜述（Retrieval-Augmented Generation for AI-Generated Content: A Survey）。

文章詳細介紹了 AIGC 場景下檢索增強技術（RAG）的組成部件，不同組件之間的結合方法，以及對 RAG 系統的優化提升技術。此外，文章還梳理總結了 RAG 在包括文本，圖像，代碼，音頻，視頻，3D 等多個不同領域，不同模態上的具體應用以及現有的 RAG 系統評估標準或者工具。最后，本文還分析探討了當前 RAG 中存在的局限性以及未來的發展趨勢和方向。

最新RAG綜述來了！北京大學發布AIGC的檢索增強技術綜述-AI.x社區

文章鏈接：

??https://arxiv.org/pdf/2402.19473.pdf??

GitHub鏈接：

??https://github.com/hymie122/RAG-Survey??

01 介紹

近年來，AIGC 的關注度持續攀升，大型生成模型在眾多領域和模態中展現出令人矚目的成果，例如文本和代碼領域的 GPT 系列和 LLAMA 系列模型、圖像領域的 DALL-E 和 Stable Diffusion 模型、以及文生長視頻背后的 Sora 模型。

雖然這些強大的生成器能夠帶來令人驚艷的效果，但仍存在一系列不容忽視的問題和挑戰，如難以更新維護知識、不易掌握長尾知識、以及泄露私人訓練數據的風險。

為了應對這些問題，檢索增強生成技術（RAG）應運而生。它運用信息檢索（Information Retrieval, IR），在龐雜的外部數據中精準地找到相關的現有信息。這些外部存儲的數據便于修改，能夠涵蓋更廣泛的長尾知識，同時還可以支持敏感數據編碼。此外，在特定場景下，RAG 還能為長文本提供支持，降低模型成本并提高響應速度。

最新RAG綜述來了！北京大學發布AIGC的檢索增強技術綜述-AI.x社區

▲ RAG 的通用架構。用戶的查詢可以是不同的模態，用作檢索器和生成器的輸入。檢索器搜索存儲中的相關數據源，而生成器與檢索結果交互，并最終生成各種模態的結果。

如上圖所示，一個典型的 RAG 流程包括以下步驟：首先，面對一個輸入查詢，檢索器會定位并提取相關的數據源。接著，這些檢索到的結果將與生成器相互作用，從而提升生成內容的質量和相關性。檢索到的信息可以通過多種方式與生成過程互動，這些具體的互動機制將在后續部分詳細闡述。

基于現有的 RAG 系統，許多工作還提出了提升方法提高模型的整體質量，包括針對特定組件的方法以及針對整個管道的優化。盡管 RAG 的概念最初出現在文本生成中，其他模態和任務對檢索增強生成的探索也很早就出現了。

RAG 如今已在各個領域的生成任務中應用，包括代碼、音頻、圖像、視頻、3D、結構化知識和人工智能科學等等。跨越不同的模態和任務，RAG 的基本思想和流程在基本保持一致，而具體使用到的檢索器和生成器根據特定任務需要而變化。

本文深入探討了 RAG 的基礎方法、針對 RAG 特定組件以及整個系統的優化策略、RAG 的實際應用場景、評估 RAG 性能的方法，以及對 RAG 當前的局限性和未來的發展方向。

02 RAG 基礎方法

我們根據檢索器如何與生成器交互，將 RAG 基礎范式分為 4 類，如圖所示：

最新RAG綜述來了！北京大學發布AIGC的檢索增強技術綜述-AI.x社區

▲ RAG 基礎方法的分類

1. 基于查詢的 RAG 方法：該方法也稱為提示擴充。它將用戶的查詢與檢索過程中提取的內容直接集成到生成模型輸入的初始階段。這種范式是 RAG 應用程序中最廣泛采用的方法。

一旦檢索到相關信息，它們的內容就會與原始用戶查詢合并，以創建一個復合輸入序列。該增強序列隨后被送到生成模型中以生成響應。對于常見的基于大型語言模型（LLM）的文本生成任務而言，該方法實際上根據檢索到的內容構建了輸入的提示詞（prompt），可以直接與提示詞工程、少樣本學習相結合。

2. 基于隱空間表達的 RAG 方法：在該方法中，檢索器得到的內容將與生成模型在內部以隱空間表達（latent representation）的方式進行交互，這種邊生成邊交互的方式可以有效的提升生成模型的理解能力以及最終生成內容的質量。這里常見的交互方法包括簡單的拼接以及設計注意力機制等等。

3. 基于概率表示的 RAG 方法：在采用概率表示（logit）的 RAG 系統中，生成模型在解碼階段會利用概率方法來融合檢索到的信息。通常情況下，模型會對檢索結果的概率分布進行求和或融合，以此計算出逐步生成文本的概率。這種方法允許模型在生成響應時，權衡不同檢索信息的相關性和可信度。

4. 投機 RAG 方法：投機 RAG 方法是利用檢索過程替代部分或全部的生成過程。當檢索器的成本低于生成器的生成成本時，這種方法具有很大的應用潛力。例如，在投機推理中，可以使用檢索方式替代小型模型的生成，然后將用戶查詢和檢索到的內容一起送入大型模型進行驗證。此外，在使用類似 ChatGPT 接口作為生成器的場景下，調用次數越多意味著成本越高，因此可以搜索過往的相同或極度相似的問題來直接得到回答。

03 RAG 提升方法

最新RAG綜述來了！北京大學發布AIGC的檢索增強技術綜述-AI.x社區

▲ RAG提升方法的分類

很多工作使用了一系列提升方法來提高基本 RAG 系統的效果。我們根據提升方法的目標將現有方法分為 5 類：對輸入的提升、對檢索過程的提升、對生成過程的提升、對結果的提升、以及對整個 RAG 流程的優化。

1. 輸入提升：輸入指的是用戶的查詢，該查詢最初被輸入到檢索器中。輸入的質量顯著影響檢索階段的最終結果，因此對輸入優化變得至關重要。在這里，我們將介紹兩種方法：查詢改寫和數據增強。

查詢改寫（Query Transformation）可以通過修改輸入查詢來提高檢索結果。數據增強（Data Augmentation）是指在檢索之前提前對數據進行改進，如去除無關信息、消除歧義、更新過時文檔、合成新數據等，可以有效提高最終 RAG 系統的性能。

2. 檢索器提升：在 RAG 系統中，檢索過程對結果影響很大。一般來說，內容質量越好，就越容易激發 LLM 的上下文學習能力（in-context learning）以及其他生成模型的能力；內容質量越差，就越有可能導致模型幻覺。

遞歸檢索（Recursive Retrieve）是在檢索之前拆分查詢，并執行多次搜索以檢索更多、更高質量的內容的過程。

塊優化（Chunk Optimization）技術是指調整塊的大小以獲得更好的檢索結果。

檢索器微調（Finetune Retriever）是對檢索器的優化，一般是對嵌入模型能力的提升。檢索器的能力越強，就可以為后續生成器提供更多有用的信息，從而提高 RAG 系統的有效性。一個好的嵌入模型可以使語義相似的內容在向量空間中更緊密地結合在一起；此外，對于已經具有良好表達能力的嵌入模型，我們仍然可以使用高質量的領域數據或任務相關數據對其進行微調，以提高其在特定領域或任務中的性能。

混合檢索（Hybrid Retrieve）是指同時使用多種類型的檢索器，如同時使用統計詞頻的方式和計算向量相似性的方式來得到檢索結果。

重排序（Re-ranking）技術是指對檢索到的內容進行重新排序，以實現更大的多樣性和更好的結果。

元數據過濾（Meta-data Filtering）則是處理檢索到的文檔的另一種方法，它使用元數據（如時間、目的等）來對檢索回的文件進行過濾篩選以獲得更合適的內容。

3. 生成器提升：在 RAG 系統中，生成器的質量通常決定最終輸出結果的質量。在這里，我們將介紹如下一些提升生成器能力的技術。

提示詞工程（Prompt Engineering）是一種專注于提高 LLM 輸出質量的技術，其中包括提示詞壓縮、回退提示、主動提示、思維鏈提示等等，以上這些同時也都適用于使用 LLM 生成器的 RAG 系統中。

解碼過程控制、調整（Decoding Tuning）是指在生成器處理過程中添加額外的控制，可以通過調整超參數來實現更大的多樣性或者以某種形式限制輸出詞匯表等等。

生成器微調（Finetune Generator）可以使生成模型具有更精確的領域知識或更好地與檢索器匹配的能力。

4. 結果提升：在許多情況下，RAG 的最終結果可能無法達到預期效果，一些結果提升方法可以幫助緩解這一問題。

結果改寫（Rewrite Output）是在生成結果的基礎上，使用另一個生成模型作為編輯器、改寫器，以使生成結果更好的符合生成目標或者結果的規則。

5. RAG 流程提升：我們將對整個 RAG 流程上的優化分為如下兩大類：自適應檢索和迭代 RAG。

自適應檢索（Adaptive Retrieval）是基于一個觀察：很多 RAG 的研究和實踐表明，檢索并不總是有利于最終生成的結果。當模型本身的參數化知識足以回答相關問題時，過度檢索會造成資源浪費，并可能增加模型的混亂。因此，一些工作提出了基于規則和基于模型的自適應檢索方法。

基于規則等方法指的是通過判斷某些與模型生成高度相關的指標來確定是否進行搜索，具體而言，這個變量可以是模型生成過程中當前 token 的生成概率，也可以是模型的困惑度（PPL）等等。基于模型的方法則指的是借助模型能力來判斷是否進行搜索，這里的模型可以是生成模型本身也可以是借助外部模型。

迭代 RAG（Iterative RAG）則指的是迭代的進行檢索和生成。生成器的當前輪次輸出可以在一定程度上反映其仍然缺乏的知識，并且檢索器可以檢索缺失的信息作為下一輪的上下文信息，這有助于提高下一輪生成內容的質量。如此循環迭代，直到生成內容達到標準。

04 RAG應用

最新RAG綜述來了！北京大學發布AIGC的檢索增強技術綜述-AI.x社區

▲ RAG在多模態，多任務中的應用分類

如上圖所示，我們在文中分別介紹了 RAG 在文本、代碼、音頻、圖像、視頻、3D，結構化知識、以及 AI4S 等多個不同模態中不同具體任務上的具體應用，并對每類應用中的方法進行了分析和解讀。更多詳細內容，請參考原論文。

05 基準測試

RAG 的主要評判標準包括忠實性、答案相關性和上下文相關性。忠實性衡量從檢索內容中推斷正確答案的能力；答案相關性評估生成結果是否解決了問題；上下文相關性判斷檢索內容是否包含足夠知識回答查詢，同時減少無關信息。

此外，還有其他評判指標，如噪聲穩健性、拒絕回答能力、信息整合能力和反事實穩健性。噪聲穩健性評估從噪聲文檔中提取信息的能力；拒絕回答能力測量在內容不足時是否拒絕響應查詢；信息整合能力評估通過整合多個檢索內容獲取知識并響應的能力；反事實穩健性衡量識別檢索內容中反事實錯誤的能力。

06 討論

1. 局限性

盡管 RAG 在各種應用中被廣泛采用，但在有效性和效率方面仍存在一些局限性。

檢索結果中的噪聲：信息檢索系統在將信息編碼為向量時不可避免地會遭受信息丟失。同時，近似最近鄰搜索（ANN）只能提供近似匹配而非精確匹配，導致檢索結果中含有一定程度的噪聲，如不相關或誤導性信息，這可能對 RAG 系統的輸出質量產生負面影響。

雖然直覺上提高檢索準確性似乎有利于提升 RAG 的效果，但最新研究出人意料地發現，帶有噪聲的檢索結果有時反而能增強生成內容的質量。這可能是因為檢索結果的多樣性在某些情況下對于生成過程是有益的。因此，噪聲對檢索結果的具體影響仍然是一個開放的問題，這也引發了關于如何選擇合適的檢索度量和如何優化檢索器與生成器之間交互的討論。未來的研究有望為這些問題提供更清晰的答案。

額外開銷：盡管檢索在某些情況下能夠降低文本生成的成本，但將檢索與生成結合使用有時會引入顯著的額外開銷。鑒于 RAG 的主要目的是增強現有生成模型的能力，引入額外的檢索和交互步驟可能會導致處理延遲。特別是當結合使用更為復雜的方法，如遞歸檢索或迭代 RAG 時，這些開銷會更加突出。

此外，隨著檢索規模的擴大，數據存儲和訪問的復雜性也會增加。在目前的技術實現中，RAG 系統需要在成本和性能之間做出權衡。未來，我們期待進一步的系統優化來降低這些額外開銷。

檢索與生成之間的復雜交互：為了實現檢索和生成組件之間的無縫集成，研究員和工程師需要精心設計和優化。鑒于檢索器和生成器可能有不同的目標，并且它們可能不在同一潛在空間中操作，協調這兩個組件的交互是一項挑戰。

正如之前提到的，研究人員已經開發了多種 RAG 的基礎方法，這些方法或是將檢索和生成過程分離，或是在中間階段進行集成。盡管分離方法更具模塊化特性，但集成方法可能從聯合訓練中獲益。目前，不同互動方式在不同應用場景下的比較研究還不夠充分。

此外，RAG 系統的提升也面臨挑戰，包括度量選擇和超參數調整等方面的相互作用尚未被充分研究。因此，為了最大化 RAG 系統的潛力，有必要在算法設計和系統部署方面進行進一步的完善。

長上下文生成的挑戰：早期 RAG 系統面臨的一個主要挑戰是生成器的上下文長度限制，這限制了它們能夠處理的提示詞的數量和長度。盡管隨著研究進展，如提示詞壓縮技術和系統優化對長上下文的支持，這個問題已經在一定程度上得到緩解，但這些解決方案往往需要在準確性和成本之間做出一些折衷。

近來，有一種觀點提出，長上下文模型如 Gemini 1.5 可能會取代 RAG。然而，這種看法忽視了 RAG 在處理動態信息，尤其是最新和長尾知識方面的靈活性優勢。我們認為，未來的 RAG 系統將利用長上下文生成的能力，以提升最終性能，而不是被新模型所取代。

2. 未來潛在的研究方向

嘗試探索更多關于 RAG 基礎方法、提升方法、和應用的研究：未來的研究方向將關注開發更先進的方法來提升和應用 RAG。由于檢索器和生成器的優化目標不同，實際的增強過程對生成結果有很大影響。通過研究更先進的基礎方法和提升方法，RAG 的潛力有望被充分挖掘和利用。

更加高效的運行、部署 RAG 系統：目前已有幾種基于查詢的針對 LLM 的 RAG 部署解決方案，如 LangChain 和 LLAMA-Index。但其他類型的 RAG 和生成任務，目前尚缺乏現成的解決方案。考慮到檢索帶來的額外開銷，以及檢索器和生成器復雜性的不斷增加，實現高效運行、部署 RAG 仍是一個挑戰，需要專門的系統優化。

更好的發揮 RAG 系統結合長尾和實時知識的能力：RAG 的一個關鍵目標是利用實時和長尾知識，但如何更新和擴展知識庫尚未得到充分研究。許多現有研究僅將生成器的訓練數據作為檢索源，忽視了檢索信息源可以更加靈活動態的優勢。

因此，一個有前景的研究方向使設計一個能夠不斷更新知識或使用靈活知識源的 RAG 系統，并進行相應的系統優化。鑒于 RAG 能夠利用長尾知識，我們期待它能夠整合個性化信息和功能，以更好地適應當今的網絡服務。

將 RAG 技術與其他先進 AIGC 技術結合使用：RAG 技術與旨在提高 AIGC 有效性的其他技術（如微調、強化學習、思想鏈、基于 Agent 的生成和其他優化方法）是互補的。目前將 RAG 與這些技術結合的嘗試還處于初期階段，我們期待未來有更多研究來探索算法設計并最大化這些技術的潛力。

感謝閱讀，更多詳細內容，請參考原論文。

本文轉自 PaperWeekly ，作者：趙鵬昊

原文鏈接:??https://mp.weixin.qq.com/s/o8oTN06UsQSlb5BNyJH23w??

標簽

RAG綜述

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

最新RAG綜述來了！北京大學發布AIGC的檢索增強技術綜述

01 介紹

02 RAG 基礎方法

03 RAG 提升方法

04 RAG應用

05 基準測試

06 討論

目錄