不懂RAG？看這一篇萬字長文就夠了精華

發布于 2025-6-27 00:36

瀏覽

0收藏

一、為什么需要 RAG 技術？

1.1 傳統語言模型的局限性

傳統的語言模型，比如 GPT-3，雖然在生成文本方面表現出色，但它們有一個顯著的局限性：它們依賴于預訓練的參數，無法動態訪問外部知識。這意味著這些模型在處理實時信息、領域特定知識或罕見實體時表現不佳。舉個例子，在問答任務中，模型可能會生成不準確或過時的答案，因為它無法訪問最新的數據。就像你問一個朋友“今天天氣怎么樣？”，但他只能告訴你去年的天氣情況，顯然這樣的信息對你來說毫無用處。

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

這種局限性在需要精確答案的場景中尤為明顯。例如，在醫療領域，醫生可能需要最新的研究數據來做出診斷，而傳統的語言模型無法提供這些信息。同樣，在法律領域，律師需要引用最新的法律條文，而模型只能基于過去的知識生成答案，這顯然是不夠的。

1.2 檢索增強生成（RAG）的誕生

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

為了解決傳統語言模型的局限性，檢索增強生成（Retrieval-Augmented Generation, RAG）技術應運而生。RAG 通過將大規模檢索系統與生成模型相結合，解決了傳統模型的局限性。它能夠動態地從外部知識源（如文檔、數據庫或結構化數據）中檢索信息，并在生成過程中利用這些信息，從而生成更準確、上下文相關的輸出。

這種結合不僅提升了模型的性能，還使其能夠處理更復雜的任務，如多跳推理和跨領域知識整合。舉個例子，如果你問 RAG 模型“量子計算的最新進展是什么？”，它可以從最新的研究論文中檢索相關信息，并生成一個基于這些信息的詳細答案。這種能力使得 RAG 在需要精確和實時信息的場景中表現出色。

1.3 RAG 的應用場景

RAG 技術在多個領域展現了巨大的潛力，尤其是在問答、摘要生成和信息檢索等任務中。例如，在開放域問答中，RAG 模型能夠從海量文檔中檢索相關信息，生成更精確的答案；在文檔摘要任務中，它能夠利用外部文檔生成更豐富、更全面的摘要。此外，RAG 還在對話系統、知識圖譜構建等領域展現了強大的能力。

在醫療領域，RAG 可以幫助醫生快速檢索最新的研究數據，輔助診斷和治療決策。在法律領域，律師可以使用 RAG 來檢索最新的法律條文，確保他們的法律建議是最新和準確的。在教育領域，RAG 可以為學生提供個性化的學習材料，幫助他們更好地理解復雜的概念。

總的來說，RAG 技術通過結合檢索和生成的能力，解決了傳統語言模型的局限性，使其在多個領域中表現出色。無論是需要實時信息的問答任務，還是需要精確答案的領域特定任務，RAG 都能提供強大的支持。

二、RAG 技術解析

2.1 核心組件：檢索與生成

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

RAG（Retrieval-Augmented Generation，檢索增強生成）的核心思想是將檢索和生成兩個過程緊密結合。首先，模型根據輸入查詢從外部知識源中檢索相關信息；然后，生成模型利用檢索到的信息生成最終的輸出。這種動態的知識整合機制使得 RAG 模型能夠在生成過程中實時訪問外部知識，從而提升輸出的準確性和相關性。

舉個例子，假設你問一個 RAG 模型：“誰發明了電話？”模型會首先從外部知識庫中檢索與“電話發明”相關的文檔或段落，然后基于這些信息生成一個準確的答案：“亞歷山大·格拉漢姆·貝爾發明了電話。”這種結合檢索和生成的方式，使得 RAG 模型在處理需要外部知識的任務時表現尤為出色。

2.2 檢索機制：從海量數據中找到關鍵信息

檢索機制是 RAG 的關鍵部分。它需要從龐大的知識庫中快速找到與查詢最相關的信息。常用的檢索方法包括基于關鍵詞的稀疏檢索（如 BM25）和基于語義的稠密檢索（如 DPR，Dense Passage Retrieval）。稠密檢索通過將查詢和文檔映射到同一向量空間，利用向量相似度（如余弦相似度）來找到最相關的文檔。

例如，如果你問：“什么是量子計算？”稀疏檢索可能會通過匹配關鍵詞“量子”和“計算”來找到相關文檔，而稠密檢索則會通過語義理解，找到與“量子計算”概念相關的文檔，即使這些文檔中沒有直接出現“量子”或“計算”這兩個詞。

2.3 生成過程：結合內部與外部知識

生成過程不僅依賴于模型的內部知識，還結合了檢索到的外部信息。模型通過“去噪”和“推理”兩個步驟來處理檢索到的信息。去噪步驟過濾掉不相關或矛盾的信息，確保生成的內容基于可靠的來源；推理步驟則幫助模型從多個信息源中提取邏輯關系，生成連貫的答案。

例如，當模型檢索到多篇關于“量子計算”的文檔時，去噪步驟會排除那些與主題無關或信息不準確的文檔，而推理步驟則會從剩下的文檔中提取關鍵信息，生成一個全面且邏輯清晰的答案。

2.4 知識整合：如何將外部知識融入生成

知識整合是 RAG 的另一個關鍵步驟。它可以通過多種方式實現，例如在輸入層直接將檢索到的文檔與查詢拼接，或在中間層通過注意力機制將外部知識融入模型的隱藏狀態。不同的整合策略適用于不同的任務需求，選擇合適的策略可以顯著提升模型的表現。

例如，在輸入層整合時，模型會將檢索到的文檔與查詢一起輸入生成模型；而在中間層整合時，模型會在生成過程中動態調整注意力機制，確保外部知識能夠被有效利用。這種靈活的知識整合方式，使得 RAG 模型在處理復雜任務時能夠更加精準地生成答案。

3. RAG關鍵步驟

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

RAG模型通過利用外部知識來增強生成過程，從而生成更準確且符合上下文的回答。基礎RAG方法包括以下幾個關鍵步驟：

? 用戶意圖理解

? 知識源與解析

? 知識嵌入

? 知識索引

? 知識檢索

? 知識整合

? 回答生成

? 知識引用

3.1 用戶意圖理解

高質量的查詢對于檢索有價值的知識至關重要。由于用戶的意圖往往不明確，準確理解用戶查詢是實現更有效和精確檢索的關鍵。目前，許多研究專注于提升對用戶查詢的理解。本兩種提升查詢質量的關鍵方法：查詢分解和查詢重寫。

3.1.1 查詢分解（Query Decomposition）

查詢分解方法已成為增強語言模型推理能力的有效策略，尤其適用于需要多步或組合推理的復雜任務，例如：

?最少到最多提示（least-to-most prompting）：將復雜問題逐步分解為更簡單的子問題，從而提升模型在更困難任務上的泛化能力。這種方法在SCAN任務中表現出色，GPT-3模型僅用14個示例就達到了99%以上的準確率。

?自問（Self-ask）：采用了類似的方法，但進一步優化了過程，通過讓模型提出并回答后續問題，減少了組合性差距，從而實現了更好的多跳推理。

?驗證鏈（Chain-of-Verification, CoVe）：通過讓模型獨立驗證其回答，提高了答案的可靠性，顯著減少了在列表問題和長文本生成任務中的幻覺現象。

?鏈中搜索（Search-in-the-Chain, SearChain）：將信息檢索（IR）整合到推理過程中。在該框架中，模型構建一個查詢鏈（Chain-of-Query, CoQ），每個查詢都通過IR進行驗證，從而提高了推理路徑的準確性和可追溯性。SearChain允許模型根據檢索到的信息動態調整其推理，從而在多跳問答和事實核查等知識密集型任務中表現出色。

3.1.2 查詢重寫

查詢重寫已成為提升RAG性能的關鍵技術，特別是在解決語義差距和改善任務結果方面。

?重寫-檢索-閱讀（Rewrite-Retrieve-Read, RRR）：通過使用LLM在檢索前生成和優化查詢，提升了查詢與目標知識的對齊，從而在開放域問答和多選任務中顯著提高了性能。

?BEQUE：專注于電子商務搜索中的長尾查詢，通過監督微調、離線反饋和對比學習來彌合語義差距，從而在GMV和交易量等業務指標上取得了顯著提升。

?HyDE：引入了一種零樣本的密集檢索方法，通過讓LLM生成假設文檔并將其編碼用于檢索相關文檔，超越了傳統的無監督檢索器。

?Step-Back Prompting：鼓勵LLM從具體示例中抽象出高級概念，從而在STEM、多跳問答和基于知識的推理任務中提升了推理能力。這些方法共同增強了RAG在跨領域知識密集型任務中的有效性和可擴展性。

3.2 知識源與解析（Knowledge Source and Parsing）

RAG可以利用的知識類型多種多樣，為LLM提供了豐富的上下文信息。所使用的知識類別，包括結構化、半結構化、非結構化和多模態知識，以及它們各自的解析和整合方法。

3.2.1 結構化知識的利用

知識圖譜（Knowledge Graphs, KGs）是一種結構化表示，以圖的形式封裝實體及其相互關系。

其結構化特性便于高效查詢和檢索，而語義關系則支持更細致的理解和推理。KGs整合了來自不同來源的信息，提供了統一的知識庫。然而，將KGs整合到RAG系統中也面臨挑戰，包括從大規模KGs中導航和提取相關子圖的復雜性、KGs擴展時的可擴展性問題，以及將結構化數據與語言模型的無序數據處理對齊的困難。例如：

?GRAG：通過跨多個文檔檢索文本子圖，提升了RAG系統中的信息檢索效率。

?KG-RAG：引入了探索鏈（Chain of Explorations, CoE）算法，通過高效導航KGs來提升知識圖譜問答（KGQA）任務的表現。

?GNN-RAG：利用圖神經網絡（GNNs）從KGs中檢索和處理信息，在與LLM對接之前增強了推理能力。從歷史數據構建KGs作為RAG的外部知識源，有效提升了信息檢索和生成能力[255]。

?SURGE框架：利用KG信息生成上下文相關且基于知識的對話，提升了交互質量。

?SMART-SLIC、KARE、ToG 2.0和KAG，展示了KGs在特定領域作為外部知識源的有效性，提升了RAG系統的準確性和效率。

3.2.2 半結構化知識的提取

半結構化數據介于結構化和非結構化格式之間，具有組織元素但沒有嚴格的模式。例如，JSON和XML文件、電子郵件以及HTML文檔。HTML作為網頁的基礎，結合了標簽和屬性等結構化組件與自由文本等非結構化內容。

這種混合特性允許HTML表示復雜信息，包括文本、圖像和鏈接。然而，HTML的靈活性也可能導致不一致和異常，給數據提取和整合到RAG系統帶來挑戰。

?HtmlRAG：在大多數場景中，開源HTML解析技術仍然是高效數據提取和無縫整合的關鍵。這些工具提供了強大的解析能力和對多樣化HTML結構的適應性，確保了在各種應用場景中的高效性和準確性。

?Beautiful Soup：一個用于解析HTML和XML文檔的Python庫，創建解析樹以便輕松提取數據；

?html5ever：由Servo項目開發的開源HTML解析器，遵循WHATWG的“HTML5”規范；

?htmlparser2：一個用于Node.js環境的強大HTML解析器，提供快速靈活的方式處理HTML文檔；

?MyHTML“”一個基于Crystal語言的高性能HTML5解析器，綁定到lexborisov的myhtml和Modest庫；

?Fast HTML Parser[39]，一個極快的HTML解析器，生成最小的DOM樹并支持基本元素查詢。

3.2.3 非結構化知識的解析

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

非結構化知識涵蓋了缺乏一致結構的數據類型，如自由文本和PDF文檔。與遵循預定義模式的結構化數據不同，非結構化數據的格式多樣，通常包含復雜內容，使得直接檢索和解釋具有挑戰性。在非結構化格式中，PDF文檔在知識密集型領域中尤為常見，包括學術研究、法律文件和公司報告。PDF通常包含大量信息，如文本、表格和嵌入圖像，但其固有的結構可變性使得提取和整合到RAG系統變得復雜。

解析PDF仍然具有挑戰性，因為需要準確解釋不同的布局、字體和嵌入結構。將PDF轉換為RAG系統可讀的格式需要光學字符識別（OCR）來捕獲文本，布局分析來理解空間關系，以及先進的方法來解釋表格和公式等復雜元素。

?ABINet：通過雙向處理增強了OCR的準確性。

?GPTPDF：使用視覺模型將表格和公式等復雜元素解析為結構化的Markdown，在大規模處理中具有高成本效益。

?Marker：專注于清理噪聲元素，同時保留文檔的核心格式，非常適合學術和科學文檔。

?PDF-Extract-Kit：支持高質量內容提取，包括公式識別和布局檢測

?Zerox OCR：將PDF頁面轉換為圖像，并使用GPT模型生成Markdown，有效管理標題和表格等結構。

?MarkItDown：是一個多功能工具，能夠將PDF、媒體、網頁數據和存檔等多種文件類型轉換為Markdown。

3.2.4 多模態知識的整合

多模態知識（包括圖像、音頻和視頻）提供了豐富的互補信息，可以顯著增強RAG系統，特別是在需要深度上下文理解的任務中。圖像提供空間和視覺細節，音頻貢獻時間和語音層，而視頻結合了空間和時間維度，捕捉運動和復雜場景。傳統的RAG系統主要設計用于文本數據，在處理和檢索這些模態的信息時往往表現不佳，導致在非文本內容至關重要時生成不完整或不夠細致的回答。

為了應對這些限制，現代多模態RAG系統開發了基本方法來整合和檢索跨模態的數據。其核心理念是將不同模態對齊到一個共享的嵌入空間中進行統一處理和檢索。

?CLIP：將視覺和語言對齊到一個共享空間

?Wav2Vec 2.0和CLAP：音頻模型則專注于音頻與文本的對齊。

?ViViT：處理空間和時間特征。

3.3 知識嵌入（Knowledge Embedding）

知識通常存儲在大量文本文檔中，首先被分割為簡潔且有意義的單元，每個單元封裝一個核心思想。這些單元隨后被轉換為向量嵌入，編碼語義信息，便于通過相似性度量進行高效檢索。

3.3.1 分塊劃分

分塊劃分是一個基礎過程，顯著影響文檔檢索質量，從而影響整體性能。分塊劃分的主要目標是將大段文本分割為可管理的單元或“塊”，從而實現更高效的檢索和生成。通過將復雜文檔分割為更小、連貫的單元，RAG可以實現對上下文保留的精細控制，并提升信息檢索的準確性。分塊劃分的目標和挑戰在于確保分割后的塊保留有意義的上下文，同時避免冗余和信息丟失。傳統的分塊方法，如固定長度、基于規則或基于語義的劃分，相對簡單，但缺乏捕捉復雜文本中細微結構的靈活性。這些方法在處理格式多樣或包含跨段落語義流的文檔時往往表現不佳，導致由于上下文信息碎片化而檢索效果不理想。

隨著分塊劃分方法的演變，早期的固定長度方法逐漸被更自適應和智能的策略所取代。最近的優化策略旨在捕捉文本中細粒度的信息分布和語義結構。例如：

?命題級分塊：將文本分割為單個事實的小單元，從而捕捉更豐富的信息。

?LumberChunker：使用LLM檢測段落之間的內容變化，從而創建上下文敏感的塊。

?元分塊方法：（如邊際采樣分塊和困惑度分塊）優化塊邊界，以更好地滿足RAG需求，提升上下文捕捉和檢索效果。

?延遲分塊：一種創新方法，與傳統做法不同，它在分塊之前對整個文檔進行嵌入，從而使模型保留完整的上下文，特別是在處理復雜或上下文密集的文本時，顯著改善了檢索結果。這些先進的分塊策略使RAG能夠更好地適應復雜的文檔結構，捕捉細微信息，并提升檢索準確性，為多樣化的檢索和生成任務提供了更強大的支持。

3.3.2 文本嵌入模型

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

在基于查詢檢索塊時，該過程依賴于查詢與塊之間的向量相似性計算（如余弦相似性）。將塊準確映射為向量表示對于有效捕捉語義意義并與相關查詢對齊至關重要。

傳統方法，如：

?詞袋模型（Bag of Words, BoW）：強調詞頻但忽略語法

?N-gram：捕捉語言結構但面臨維度挑戰

?TF-IDF模型：結合了詞頻和上下文，但仍受高維度問題的限制。

以上方法無法全面表示語義信息。相比之下，基于深度學習的現代詞嵌入方法，如：

?Word2Vec、GloVe和fastText：通過利用上下文、共現模式或詞根變化來編碼單詞。

然而，這些嵌入是靜態的，無法適應不同的上下文。

Transformer架構 的引入，特別是BERT ，在捕捉上下文意義和增強語義表示方面取得了重大進展。BERT 及其衍生模型，如RoBERTa、ALBERT 和DPR，顯著提升了文檔檢索能力。

BGE、NV-Embed和SFR-Embedding，在多語言和特定領域的基準測試中表現出色。

3.3.3 多模態嵌入模型

知識不僅以文本形式表示，還包括圖像、音頻和視頻。因此，對多模態嵌入模型的需求日益增加，這些模型將來自不同模態的信息整合到一個統一的向量空間中。這些模型專門設計用于捕捉不同數據類型之間的關系和共享信息，從而實現更全面和統一的表示。

對于圖像，模型處理JPG或PNG等圖像格式，生成與文本相同的語義向量空間中的嵌入。

?Normalizer-Free ResNets (NFNet)：提供了一個高效的框架來提取圖像特征

? **Vision Transformer (ViT)**：利用Transformer架構學習高質量表示。

?對比語言-圖像預訓練（CLIP）：通過對比學習將視覺和文本模態對齊，生成了適用于零樣本分類和跨模態檢索的多功能嵌入。

對于音頻，模型提取音高、音色、節奏和語義等關鍵特征，從而實現對音頻的有效和有意義分析，以支持檢索任務。

?Wav2Vec 2.0：一種自監督學習模型，直接從原始波形中學習音頻表示，生成適用于多種音頻任務的高層次嵌入。

?對比語言-音頻預訓練（CLAP）：一種最先進的模型，通過從成對的音頻和文本數據中學習生成音頻嵌入，為音頻與自然語言的整合提供了統一框架。

對于視頻，模型旨在將視頻數據表示為緊湊且特征豐富的向量，捕捉空間、時間和語義信息。

? **Video Vision Transformer (ViViT)**：基于ViT，能夠有效處理視頻理解任務，捕捉空間和時間特征。

?VideoPrism：因其在廣泛視頻理解基準測試中的最先進表現而備受關注。它特別擅長在不同視頻領域中泛化，而無需特定任務的微調。

3.4 知識索引（Knowledge Indexing）

在RAG中，索引被定義為數據的結構化組織，能夠從大規模數據集中高效訪問和檢索信息。索引將用戶查詢映射到相關的文檔塊、知識片段或其他信息內容，充當存儲數據與檢索機制之間的橋梁。索引的有效性對RAG系統至關重要，因為它直接影響響應準確性、檢索速度和計算效率。

3.4.1 索引結構

結構化索引：結構化索引基于預定義的固定屬性組織數據，通常采用表格或關系格式。在早期的知識檢索工作中，如REALM系統，文本倒排索引被廣泛用作基礎技術，而Table RAG則使用特定于表格的索引結構，結合列索引和行索引，以高效檢索相關表格條目用于語言生成任務[30]。

非結構化索引：非結構化索引則設計用于自由格式或半結構化數據，在現代RAG系統中更為常見。向量索引利用先前嵌入階段生成的向量來提高檢索效率，如naive RAG、ANCE和G-retriever，后者使用語言模型將圖的文本屬性轉換為向量。

圖索引：圖索引是一種非結構化索引，利用圖結構的固有優勢來表示和檢索互連數據。在圖索引中，數據點被表示為節點，而它們之間的關系通過邊表示。這種索引范式特別擅長捕捉語義關系和上下文信息，從而支持復雜的查詢和推理任務。

3.5 知識檢索（ Knowledge Retrieval）

在RAG系統中，知識檢索是一個關鍵步驟，決定了生成模型能夠獲取到哪些外部知識。知識檢索的目標是從大規模的外部知識庫中快速、準確地找到與用戶查詢最相關的信息。為了實現這一目標，RAG系統通常依賴于高效的檢索算法和索引結構。

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

知識檢索是基于給定查詢從向量數據庫中識別并檢索相關知識的過程。包括檢索策略和搜索方法。檢索策略關注如何識別相關知識，而搜索方法則定義了用于快速定位最相關信息的算法。

3.5.1 檢索策略

檢索的目標是根據輸入查詢識別并提取最相關的知識。通過使用相似性函數檢索最相關的 top-k 個知識塊。根據不同的相似性函數，檢索策略可以分為三種類型：稀疏檢索、稠密檢索和混合檢索。

稀疏檢索

稀疏檢索策略通過詞語分析和匹配利用稀疏向量檢索文檔或知識塊。傳統的稀疏檢索策略使用術語匹配指標，如 BM25、TF-IDF 和查詢似然，通過計算詞語出現頻率和逆文檔頻率來估計文檔與查詢的相關性。

稠密檢索

稠密檢索策略將查詢和文檔編碼到低維向量空間中，通過向量表示的點積或余弦相似度來衡量相關性。稠密檢索器，如 DPR 和 ANCE，基于 BERT 架構的預訓練語言模型，并在無監督數據上進行微調，以生成高質量的查詢和文檔表示。

最近，大語言模型（LLMs）在語義理解和表示能力方面表現出色。基于 LLMs 的強大能力，研究者們嘗試使用 LLMs 生成判別性文本嵌入。例如，Llama2Vec 是一種輕量級方法，通過兩個無監督預訓練任務（EBAE 和 EBAR）將 LLMs 用于稠密檢索。RepLLaMA 微調 LLaMA 作為稠密檢索器，利用其整體表示長文檔的能力進行高效文本檢索。

混合檢索

混合檢索策略結合了稀疏和稠密檢索技術，旨在通過利用每種方法的優勢來優化性能。例如，RAP-Gen 和 BlendedRAG 將傳統的關鍵詞匹配與深度語義理解相結合，使系統既能從稀疏檢索的效率中受益，又能通過稠密表示捕獲更深層次的上下文。BASHEXPLAINER 采用兩階段訓練策略，首先使用稠密檢索器捕獲語義信息，然后使用稀疏檢索器獲取詞匯信息，從而實現性能優異的自動代碼注釋生成。這種雙重策略解決了每種方法的局限性；例如，稀疏策略可能在語義細微差別上表現不佳，而稠密策略則可能計算密集。通過結合兩者的優勢，混合模型提高了各種任務中的檢索準確性和相關性。

3.5.2 搜索方法

搜索方法是指為給定查詢向量從向量數據庫中高效識別相似向量的算法。搜索方法可以分為兩種類型：最近鄰搜索（NNS）和近似最近鄰搜索（ANNS）。

最近鄰搜索

NNS 的暴力算法是一種簡單的算法，窮舉掃描數據庫中的所有向量，計算與查詢向量的距離以識別最接近的向量。然而，這種方法計算成本高，在大規模數據集上不切實際。

引入了基于樹的方法來提高搜索效率。例如，Bentley 提出了一種基于 k-d 樹的方法，該方法將 k 維空間遞歸劃分為超矩形區域，從而提高了數據組織和搜索速度。其他基于樹的結構，如 Ball-tree、R-tree和 M-tree，也通過將數據劃分為超球體、矩形或度量空間等結構來增強最近鄰搜索，從而提高了搜索性能，特別是在高維和復雜數據集中。

近似最近鄰搜索

ANNS 在準確性、速度和內存效率之間取得了平衡，使其特別適用于大規模和高維數據。這包括基于哈希的方法、基于樹的方法、基于圖的方法和基于量化的方法。

? 基于哈希的方法，將高維向量轉換為二進制代碼，優化內存使用并加速搜索操作。例如，深度哈希使用深度神經網絡學習哈希函數，將高維向量映射為二進制代碼，同時保留相似數據之間的語義關系。

? 基于樹的 ANNS 方法，包括 K-means 樹和 ANNOY，通過層次化組織數據，通過高效遍歷樹結構來減少搜索空間。這些方法將數據集劃分為分區或簇，使得在搜索過程中僅探索相關區域。

? 基于圖的方法，如分層可導航小世界（HNSW），通過反映數據點之間接近度的邊連接數據點，從而通過導航圖快速進行最近鄰搜索。

? 基于量化的方法，如乘積量化，旨在通過將向量量化為較小的碼本來壓縮數據，從而在保持搜索速度和準確性之間良好平衡的同時減少內存需求。

多樣化的 ANNS 方法為大規模、高維數據集中的快速高效最近鄰搜索提供了強大的解決方案，每種方法在準確性、速度和內存使用方面都有其自身的權衡。

3.6 知識整合

知識整合是指將檢索到的外部知識與生成模型的內部知識相結合，以提高輸出的準確性和連貫性。基本上，知識整合可以分為三種類型：輸入層整合、中間層整合和輸出層整合。

3.6.1 輸入層整合

輸入層整合是指在輸入層將檢索到的信息與原始查詢直接整合，旨在增強生成過程中的上下文信息。根據整合方法的不同，輸入層整合可以分為兩種類型：文本級整合和特征級整合。

文本級整合

將檢索到的 top-k 文檔直接與查詢拼接。為了減少低質量信息的影響并更好地利用大語言模型（LLMs）的上下文學習能力，一些方法對知識塊進行重新排序，優先處理最相關的內容，而另一些方法則應用加權過濾從檢索內容中去除不相關信息。由于 LLMs 的輸入長度限制，對上下文進行壓縮，使模型能夠在有限的輸入大小內學習更多信息。

特征級整合

特征級整合側重于在特征級別將檢索內容的編碼形式與原始輸入整合。與簡單地拼接原始文本不同，將輸入查詢和檢索到的文檔轉換為特征表示（如稠密或稀疏向量），然后再輸入到模型中。通過在特征表示而非原始文本上操作，特征級整合允許對輸入數據進行更靈活的操縱。

3.6.2 中間層整合

中間層整合是指將外部知識整合到生成器的隱藏層中。基于注意力的方法 是中間層整合中常見的方法之一。

? RETRO 模型：引入了一種新穎的交叉注意力模塊，將檢索到的信息與模型的中間表示相結合。

? TOME：引入了提及記憶機制，通過存儲和檢索實體提及表示，將外部知識整合到 Transformer 中。

? LongMem框架：使用自適應殘差網絡進行記憶檢索，結合注意力機制高效訪問和檢索相關的長期記憶。

3.6.3 輸出層整合

輸出層整合是指在生成器的輸出層整合檢索到的知識。這種方法通常將檢索知識的 logits 與模型的輸出 logits 結合，從而實現增強生成。輸出層整合可以分為兩個主要分支：

?基于集成的整合聚合來自檢索的 logits，例如在 kNN-LM中，最近鄰的概率與模型的預測進行插值，以提高泛化能力和魯棒性。

?基于校準的整合則使用檢索 logits 來優化模型的預測置信度，如置信度增強的 kNN-MT。

3.7 答案生成

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

在 RAG 系統中，生成組件是生成既準確又上下文相關的回答的核心。

然而，在 RAG 模型中實現高質量輸出需要克服兩大挑戰：處理噪聲檢索以及實現對多樣化信息的有效推理。

3.7.1 去噪

去噪在 RAG 模型中至關重要，目的是減少從大型知識庫中檢索到的無關、矛盾或誤導性信息的影響。檢索中的噪聲會嚴重影響生成輸出的事實準確性和連貫性，因此去噪機制在 RAG 管道中不可或缺。

顯式去噪技術

一種有效的去噪方法是通過顯式監督。InstructRAG引入了 理性生成，模型被指示生成中間理性，以澄清每個檢索文檔的相關性。這些理性通過引導模型專注于更準確和上下文相關的內容，有效地過濾了噪聲。REFEED 框架利用大語言模型根據檢索數據重新評估響應的準確性，迭代地丟棄不太相關的信息，從而優化初始答案。

基于判別器的去噪

COMBO 框架使用預訓練的判別器將生成的段落與檢索到的段落配對，在最終生成階段之前評估每對的連貫性和相關性。這種基于判別器的方法確保識別并過濾無關或矛盾的信息，從而最小化幻覺的風險。

自反思和自適應去噪

Self-RAG引入了一種自反思機制，模型通過評估其響應的連貫性和事實性來批評和修訂自己的輸出。這種方法提供了一種動態處理噪聲的方式，因為模型可以通過自我評估迭代地過濾不可信或無關的信息。此外，自適應檢索策略允許模型根據任務特定標準檢索文檔，動態調整檢索范圍和過濾強度，以優化相關性和質量。

上下文過濾和置信度評分

模型可以根據檢索信息與查詢的一致性為其分配分數，在整合之前過濾掉低置信度的檢索。這種方法利用置信度閾值系統地排除噪聲文檔，特別適用于相關性差異顯著的開放域問答任務。

3.7.2 推理

除了去噪，推理對于需要跨多個文檔綜合信息的任務至關重要。有效的推理使模型能夠將檢索到的信息情境化，建立邏輯連貫性，并生成準確反映復雜關系的響應。

結構化知識和基于圖的推理

一種高級推理方法涉及整合結構化知識源（如知識圖譜）以輔助復雜的關系推理。Think-on-Graph 2.0 引入了一個框架，將知識圖譜與非結構化文本相結合，使模型能夠推理實體之間的結構化關系。通過利用圖結構，模型獲得了更深層次的上下文理解，提高了回答涉及復雜關系的查詢的能力。

跨注意力用于多文檔推理

為了促進跨多個文檔的推理，RETRO 模型采用了分塊跨注意力，使生成模型能夠關注檢索到的文本塊中的相關信息。這種跨注意力機制有助于保持上下文連貫性，特別是在信息跨越多個文檔的開放域設置中。跨注意力也在增強的 kNN 方法中得到了探索，其中 kNN 注意力層允許模型在生成過程中利用鄰域信息，從而實現上下文相關內容的無縫整合。

記憶增強推理

記憶增強推理，如 EAE 和 TOME 等模型中所示，整合了特定實體的記憶模塊。這些模型存儲并動態檢索與實體相關的信息，使生成模型能夠隨著時間的推移保持一致性和連貫性。記憶模塊在需要縱向一致性或多步推理的任務中特別有益，因為它們允許模型在對話或文檔的不同部分中回憶特定實體的細節。

檢索校準和選擇性推理推理的另一個關鍵進展是檢索校準，模型被訓練為根據上下文相關性優先處理某些檢索信息。校準技術幫助模型識別最關鍵的信息，在推理之前過濾掉不太相關的檢索。

分層和多輪推理對于需要多步推理的復雜查詢，分層或多輪推理模型允許模型迭代處理檢索到的信息，每輪都優化其理解。多輪推理特別適用于涉及因果或時間依賴性的任務，因為它使模型能夠根據新信息“重新審視”先前的知識，形成分層的理解，從而提高響應的準確性和連貫性。

3.8 知識引用

在 RAG 中，引用對于確保模型響應的透明度、可信度和事實基礎至關重要。通過將生成的內容歸因于可驗證的來源，用戶可以輕松驗證信息，減少聲明驗證的負擔，并改進評估過程。此外，有效的引用有助于減少幻覺，增強模型輸出的事實完整性。

3.8.1 引用生成策略

在語言模型中生成引用有兩種主要策略：同步引用生成 和 生成后引用檢索。

? 同步生成被 WebGPT、GopherCite 和 RECLAIM 等模型使用，它們在響應生成過程中實時檢索信息。這種方法確保答案和引用緊密對齊，減少幻覺并提高事實準確性。

? 生成后引用被 RARR和 LaMDA等模型使用，它先生成答案，然后再檢索引用。雖然這種方法降低了計算復雜性，但由于答案的生成獨立于引用，增加了響應與引用來源之間不一致的風險。

兩種方法各有優勢：同步生成提供了更強的事實基礎，而生成后引用則在響應生成中提供了更大的靈活性。

3.8.2 引用粒度的進展

引用粒度——即引用中提供的細節水平——在最近的模型中有了顯著提升。早期的模型如 LaMDA 使用粗粒度引用，通常引用整個文檔或 URL，雖然有助于事實基礎，但需要用戶篩選無關信息。最近的模型，如 WebGPT、WebBrain和 GopherCite，已經向細粒度引用發展。

這些模型檢索特定的證據片段，或專注于理解長文檔以支持個別聲明。RECLAIM 模型代表了最高水平的引用粒度，將個別聲明鏈接到源材料中的確切句子。

4. 高級RAG

高級RAG方法超越了基礎的RAG模型，通過一系列創新技術克服了基礎RAG系統的局限性。這些方法旨在從多個維度提升RAG系統的能力，包括訓練優化、多模態處理、記憶增強和智能推理。

4.1 RAG訓練

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

RAG訓練的核心在于優化檢索和生成組件之間的協同作用，以實現最佳性能。有效的訓練策略確保檢索器獲取相關信息的同時，生成器能夠產生連貫且準確的輸出。本節將介紹三種主要的訓練方法：靜態訓練、單向引導訓練和協同訓練。

4.1.1 靜態訓練

靜態訓練是一種簡單但有效的方法，在訓練過程中固定檢索器或生成器中的一個組件，專注于優化另一個組件。這種方法在計算資源有限或需要快速部署的場景中尤為適用。例如，固定檢索器并優化生成器可以利用已有的檢索機制（如BM25或BERT），從而減少訓練開銷。然而，靜態訓練的缺點是可能影響系統的整體性能，因為只有單一組件被優化，可能導致檢索與生成之間的協同作用不足。

4.1.2 單向引導訓練

單向引導訓練通過一個組件引導另一個組件的優化，分為檢索器引導生成器訓練和生成器引導檢索器訓練兩種方式。? 檢索器引導生成器訓練：利用高質量檢索文檔指導生成器的訓練，例如RETRO和RALMs等模型通過預訓練的檢索器（如BERT和COLBERTV2）提升生成器的輸出質量。? 生成器引導檢索器訓練：根據生成器的性能優化檢索器，例如DKRR和AAR等模型利用生成器的注意力分數或生成信號指導檢索器的訓練，確保檢索內容與生成需求一致。

4.1.3 協同訓練

協同訓練同時優化檢索器和生成器，通過聯合訓練實現整體系統性能的提升。這種方法確保兩個組件的改進相互促進，例如RAG和MIPS等模型通過協同訓練優化檢索過程，使檢索器能夠根據生成器的反饋逐步提升檢索效果，同時生成器也能更好地利用檢索信息。

4.2 多模態RAG

多模態RAG擴展了傳統文本RAG系統，通過整合圖像、音頻、視頻等多種模態信息，豐富了系統的輸出能力。然而，多模態RAG面臨兩大挑戰：一是如何有效表示和檢索跨模態知識，二是如何理解和利用多模態信息生成合適的響應。

4.2.1 多模態表示與檢索

多模態RAG的基礎在于將不同模態的數據轉換為統一的向量表示，并實現跨模態的高效檢索。例如，CLIP通過學習圖像和文本的對齊表示，實現了跨模態檢索；Wav2Vec 2.0和ViViT則分別處理音頻和視頻內容，提取豐富的特征表示。

4.2.2 多模態理解與生成

多模態RAG系統需要進一步理解跨模態關系并生成連貫的輸出。例如，MuRAG和RA-CM3通過檢索和生成多模態內容（如圖像和文本）提升問答系統的能力；Transfusion和Show-o等模型則結合語言建模和擴散模型，支持廣泛的視覺-語言任務。

4.3 記憶RAG

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

記憶RAG通過引入顯式記憶機制，彌補了傳統RAG系統中隱式記憶和實時檢索之間的空白。這種機制在處理長文檔理解、個性化知識管理等場景中表現出色。

4.3.1 記憶類型

? 隱式記憶：存儲在模型參數中的知識，例如預訓練的檢索器和生成器權重，提供快速推理但難以更新。? 顯式記憶：壓縮的、結構化的長期知識表示，例如對整本書或用戶行為模式的理解，比隱式記憶更靈活且易于更新。? 工作記憶：臨時存儲的檢索文本塊，用于當前任務的生成，類似于人類的短期記憶。

4.3.2 技術實現

記憶RAG通過稀疏鍵值緩存實現顯式記憶，例如Memory3通過兩階段預訓練將原始輸入轉換為顯式記憶；MemoRAG采用輕量級LLM作為全局記憶系統，提升長文本處理能力；CAG則通過預計算鍵值緩存完全消除實時檢索需求，提高系統效率。

4.4 Agentic RAG

不懂RAG？看這一篇萬字長文就夠了-AI.x社區圖片

Agentic RAG將自主智能體與RAG技術結合，通過動態管理檢索策略和優化推理過程，顯著提升了系統的性能。

4.4.1 查詢理解與策略規劃

智能體通過分析查詢復雜性和主題，制定合適的檢索策略。例如，AT-RAG通過主題過濾和迭代推理提升多跳查詢的檢索效率；REAPER則通過基于推理的檢索規劃優化復雜查詢的處理。

4.4.2 工具利用

Agentic RAG能夠利用多種外部工具（如搜索引擎、計算器和API）增強檢索和推理能力。例如，AT-RAG和RAGENTIC通過多代理協作和工具集成，靈活應對不同任務需求。

4.4.3 推理與決策優化

智能體通過多步推理和決策優化，評估信息源可靠性并優化檢索策略。例如，PlanRAG通過“先計劃后檢索”的方法提升生成模型的決策能力；REAPER則通過推理增強檢索規劃，提高系統響應速度。

通過以上高級RAG方法，RAG系統在處理復雜、動態和專門化任務時展現出更強的能力和適應性。

本文轉載自??大語言模型論文跟蹤??，作者：HuggingAGI

標簽

RAG

智能體

工具

已于2025-6-27 11:14:21修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

不懂RAG？看這一篇萬字長文就夠了 精華

一、為什么需要 RAG 技術？

1.1 傳統語言模型的局限性

1.2 檢索增強生成（RAG）的誕生

1.3 RAG 的應用場景

二、RAG 技術解析

2.1 核心組件：檢索與生成

2.2 檢索機制：從海量數據中找到關鍵信息

2.3 生成過程：結合內部與外部知識

2.4 知識整合：如何將外部知識融入生成

3. RAG關鍵步驟

3.1 用戶意圖理解

3.1.1 查詢分解（Query Decomposition）

3.1.2 查詢重寫

3.2 知識源與解析（Knowledge Source and Parsing）

3.2.1 結構化知識的利用

3.2.2 半結構化知識的提取

3.2.3 非結構化知識的解析

3.2.4 多模態知識的整合

3.3 知識嵌入（Knowledge Embedding）

3.3.1 分塊劃分

3.3.2 文本嵌入模型

3.4 知識索引（Knowledge Indexing）

3.4.1 索引結構

3.5 知識檢索（ Knowledge Retrieval）

3.5.1 檢索策略

3.5.2 搜索方法

3.6 知識整合

3.6.1 輸入層整合

3.6.2 中間層整合

3.6.3 輸出層整合

3.7 答案生成

3.7.1 去噪

3.7.2 推理

3.8 知識引用

3.8.1 引用生成策略

3.8.2 引用粒度的進展

4. 高級RAG

4.1 RAG訓練

4.1.1 靜態訓練

4.1.2 單向引導訓練

4.1.3 協同訓練

4.2 多模態RAG

4.2.1 多模態表示與檢索

4.2.2 多模態理解與生成

4.3 記憶RAG

4.3.1 記憶類型

4.3.2 技術實現

4.4 Agentic RAG

4.4.1 查詢理解與策略規劃

4.4.2 工具利用

4.4.3 推理與決策優化

目錄

不懂RAG？看這一篇萬字長文就夠了精華