成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<del id="sosis"><menu id="sosis"></menu></del>

<center id="sosis"><option id="sosis"></option></center>

<bdo id="sosis"></bdo>

<del id="sosis"></del>

<abbr id="sosis"><table id="sosis"></table></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

繞過 RAG 實時檢索瓶頸，緩存增強生成（CAG）如何助力性能突破？

作者：追求卓越的 2025-02-27 10:55:44

在當前大語言模型應用大規模落地的背景下，這些挑戰正成為制約產品競爭力的關鍵瓶頸。傳統 RAG 方案中的檢索延遲、準確性波動以及系統復雜度，都在考驗著開發者的耐心和智慧。

檢索增強生成（RAG）作為一種通過整合外部知識源來增強語言模型的強大方法而備受矚目。不過，這種方法也帶來了一些挑戰，比如檢索過程的延遲、文檔挑選時可能出現的誤差，以及系統復雜度的增加。

隨著能夠處理更長上下文的大語言模型（LLMs）的興起，緩存增強生成（CAG）技術應運而生，它避免了實時的信息檢索。這項技術通過將所有必要資源預先加載到模型的擴展上下文中，并在緩存其相關運行時（runtime）參數，尤其在處理數量有限且易于管理的文檔或知識時更為有效。

話不多說，讓我們來深入探討這一新穎的技術。

本文將討論以下主題：

RAG 如何擴展上下文的處理能力？
無限擴展的上下文窗口
CAG 技術有何優勢？
其他方面的改進
CAG 框架的運作原理
總結

圖片

1.RAG 如何擴展上下文的處理能力？

RAG 是一種半參數化系統，其中參數化部分由大語言模型構成，而非參數化部分則包括其他元素。將這兩部分結合，便形成了半參數化系統。在 LLMs 中，所有信息都以編碼形式存儲在模型的權重或參數中，而系統的其他部分則沒有用參數來定義這些知識。

那么，這種設計是如何解決問題的呢？

通過在 LLMs 中靈活地替換索引（即特定的信息），能夠實現信息的個性化定制，這意味著我們不會因為信息過時而受限，同時也能夠更新索引的內容。
將 LLMs 與這些索引相結合，可以減少錯誤信息的產生，并且我們能夠通過指向信息原始來源來進行引用和歸屬描述。

因此，從理論上講，RAG 提升了我們為 LLMs 創建更佳上下文的能力，使其表現更加出色。

但這個過程真的這么簡單嗎？答案是否定的。

現有的 RAG 系統并不夠智能，它們相對簡單，無法應對那些需要大量自定義上下文的復雜任務。

因此，簡而言之，正是由于上下文窗口對 LLMs 的限制，RAG 才得以發展起來。

2.無限擴展的上下文窗口

相關論文在此：《Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention》。

這篇論文提出了一種高效的方法，可以在有限的內存和計算資源約束下，將基于 Transformer 的大語言模型（LLMs）擴展到處理無限長的輸入。該方法中的一個關鍵創新是一種名為 Infini-attention 的全新注意力機制。

Infini-attention 的核心思想是將局部注意力和全局注意力相結合。具體來說，首先將整篇文章分割成多個片段，在其中一個片段上應用標準的注意力機制，而為了獲取前一個片段的上下文，我們采用了一種線性注意力機制。以下是對這篇論文的簡要概述：

混合注意力機制：局部注意力集中于單詞周圍的即時上下文，而長距離注意力則通過參考迄今為止所見的整個序列的壓縮摘要來保持全局視野。
壓縮記憶：利用線性注意力來記憶之前的文本片段。
高效更新：為了避免冗余和節省計算量，Infini-attention 不會直接將新信息添加到記憶中。相反，它會首先檢查已知信息，然后只更新記憶中的新信息或不同信息，這與 ResNet 中的跳躍連接（skip connections）類似。
權衡控制：通過一個超參數來調節局部信息和壓縮記憶的混合比例。

3.CAG 技術有何優勢？

無檢索長上下文范式：提出了一種創新方法，通過利用預加載文檔和預計算 KV 緩存的長上下文 LLMs，消除了檢索延遲、錯誤和系統復雜性。

性能比較：實驗表明，長上下文 LLMs 的性能優于傳統的 RAG 系統，特別是在可管理的知識庫中。

實用見解：提出可操作的優化策略以提升知識密集型工作流效率，通過實證驗證無檢索方法在特定應用場景下的可行性。

CAG 相較于傳統 RAG 系統具有以下顯著優勢：

縮短推理時間：由于無需實時檢索，推理過程變得更快、更高效，能夠更快地響應用戶查詢。
統一上下文：將整個知識集合預加載到 LLM 中，可提供對文檔的整體和連貫理解，從而在各種任務中提高響應質量和響應一致性。
簡化架構：通過移除整合檢索器和生成器的需求，系統變得更加簡潔，降低了系統復雜性，提高了可維護性，并減少了開發成本。

4.其他方面的改進

對于知識密集型任務而言，增加的計算資源通常被用來融入更多的外部知識。然而，如果沒有有效地利用這些知識，單純地擴展上下文并不總是能提升性能。

兩種推理擴展策略：上下文學習（In-context learning）和迭代式提示技術（iterative prompting）。

這些策略為擴展測試時計算（test-time computation）提供了額外的靈活性（例如，通過增加檢索的文檔數量或生成步驟），從而增強 LLMs 獲取和利用上下文信息的能力。

我們需要回答兩個關鍵問題：

(1) 在進行最優配置時，RAG 性能如何通過推理計算規模的擴展獲得提升？

(2) 能否通過建模 RAG 性能與推理參數之間的量化關系，預測給定預算約束下的最優測試時計算資源分配？

在最優推理參數配置下，RAG性能隨著測試時計算量級的提升呈現近似線性增長?；趯嶒炗^測，我們推導出RAG的推理擴展規律及其配套計算資源分配模型，該模型可預測不同超參數配置下的系統性能表現。

欲了解更多信息請閱讀此論文：https://arxiv.org/pdf/2410.04343

另一項工作則更多地從硬件（優化）設計的角度出發：

研究團隊開發了智能知識存儲系統（Intelligent Knowledge Store, IKS），這是一種基于 CXL 2.0 協議的設備，采用橫向擴展的近內存加速架構，通過在主機 CPU 與近內存加速器之間構建新型緩存一致性接口實現性能突破。

在 512GB 向量數據庫上，IKS 執行精確最近鄰搜索的速度相比 Intel Sapphire Rapids CPU 提升 13.4-27.9 倍。這種搜索性能優勢使典型 RAG 應用的端到端推理時間縮短 1.7-26.3 倍。作為內存擴展器，IKS 的內部 DRAM 可解耦供服務器其他應用使用，有效避免當今服務器中最昂貴的 DRAM 資源閑置浪費。

欲了解更多信息，請閱讀這里：https://arxiv.org/pdf/2412.15246

另一篇論文系統性地研究了長上下文對 20 種主流開源和商業大語言模型（LLM）的檢索增強生成（RAG）性能影響。研究團隊通過在三個專有領域數據集上改變總上下文長度（從 2,000 到 128,000 tokens，并在可能情況下擴展至 200 萬 tokens）運行 RAG 工作流，揭示了長上下文在 RAG 應用中的優勢與局限性。

他們的研究發現，雖然檢索更多文檔可以提高性能，但只有少數最新一代的最先進 LLMs 能夠在超過 64k tokens 的長上下文中保持穩定的準確性。他們還確定了長上下文場景中的不同故障模式，為未來的研究提出了方向。

欲了解更多信息，請閱讀此論文：https://arxiv.org/pdf/2411.03538

5.CAG 框架的運作原理

CAG 框架利用長上下文 LLMs 的擴展上下文能力，消除了實時檢索的需求。通過預加載外部知識源（例如，文檔集合 D={d1,d2,…} ）并預計算鍵值（KV）緩存（C_KV），它克服了傳統 RAG 系統的效率低下問題。該框架主要分三個階段運行：

1）外部知識預加載

對精選的文檔集合 D 進行預處理，使其適配模型的擴展上下文窗口。
LLM 處理這些文檔，將它們轉換為預計算的鍵值（KV）緩存，該緩存封裝了 LLM 的推理狀態。LLM（M）將文檔集合 D 編碼成預計算的 KV 緩存：

image.png

該預計算緩存被存儲以供復用，確保無論后續執行多少次查詢，處理文檔集合D的計算成本僅需支付一次。

2）推理階段

在推理階段，KV 緩存（C_KV）與用戶查詢 Q 一起加載。
LLM 利用這個緩存中的上下文來生成響應，從而消除了檢索延遲，并減少了由于動態檢索引起的錯誤或遺漏的風險。LLM 通過利用緩存中的上下文來生成響應：

image.png

這種方法消除了檢索延遲，將檢索錯誤的風險降至最低。組合提示詞 P=Concat(D,Q) 確保了對外部知識和查詢的統一理解。

3）緩存重置

為維持性能，需對 KV 緩存進行高效重置。在推理過程中，隨著新 token（t1,t2,…,tk）被添加至上下文窗口，重置過程會截斷這些 tokens：

image.png

隨著新 token 的連續添加，KV 緩存逐漸增長，重置時僅需截斷這些新增 token，即可實現快速重新初始化，無需從磁盤重新加載整個緩存。這種設計避免了全量緩存加載的 I/O 瓶頸，確保了系統響應速度的持續穩定。

6.Conclusion

緩存增強生成（CAG）在實時檢索不可行或需要極低延遲響應的場景中優勢顯著。通過將海量外部知識嵌入模型的上下文窗口，CAG 能夠生成信息豐富且上下文相關的回答，避免了傳統檢索增強生成（RAG）系統的檢索延遲。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

責任編輯：武曉燕來源： Baihai IDP

RAG 大語言模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：成年人免费网站 | 日韩一三区 | 在线国产一区 | 婷婷丁香激情 | 日韩男人天堂 | 日韩三极 | 国产欧美精品 | 一级黄色片免费在线观看 | 天堂一区二区三区四区 | 午夜视频一区二区 | 亚洲第一免费播放区 | 一区二区三区四区在线 | 久久亚洲综合 | 欧美激情在线观看一区二区三区 | 亚州精品天堂中文字幕 | 国产在线视频在线观看 | 成人影院网站ww555久久精品 | 国产精品伦理一区二区三区 | 欧美欧美欧美 | 91se在线 | 久久久免费少妇高潮毛片 | 成人国产精品久久久 | 婷婷激情综合 | 成人免费视频播放 | 久久99精品久久久久久国产越南 | 国产精品无码专区在线观看 | 农村真人裸体丰满少妇毛片 | 成人av电影网 | 日韩欧美成人精品 | 夏同学福利网 | 久久黄网 | 午夜久久久 | 亚洲欧洲色视频 | 国产成人jvid在线播放 | 欧美精品二区 | 免费在线观看黄视频 | 亚洲日本一区二区 | 日韩免费网站 | 久久不卡日韩美女 | 四虎午夜剧场 | 国产精品久久久久久久久免费软件 |

<abbr id="swums"></abbr><s id="swums"><center id="swums"></center></s>

<bdo id="swums"><object id="swums"></object></bdo>

<dl id="swums"><dd id="swums"></dd></dl>