Salesforce 新方法讓RAG效果飆升

發(fā)布于 2025-2-17 07:18

瀏覽

0收藏

Diversity Enhances an LLM's Performance in RAG and Long-context Task大型語(yǔ)言模型（LLMs）的快速發(fā)展凸顯了上下文窗口限制的挑戰(zhàn)，這主要是由于自注意力機(jī)制的二次時(shí)間復(fù)雜度（(O(N^2))，其中 (N) 表示上下文窗口長(zhǎng)度）。這一限制影響了問答（Q&A）中的檢索增強(qiáng)生成（RAG）和長(zhǎng)上下文摘要等任務(wù)。一種常見的方法是選擇與查詢最相似的內(nèi)容；然而，這通常會(huì)導(dǎo)致冗余，并排除多樣化的相關(guān)信息。基于最大邊緣相關(guān)性（MMR）和最遠(yuǎn)點(diǎn)采樣（FPS）的原則，我們?cè)趦?nèi)容選擇過(guò)程中引入了多樣性。我們的研究發(fā)現(xiàn)，在基于 LLM 的問答和摘要之前，將多樣性融入內(nèi)容選擇，可以顯著提高相關(guān)句子或塊的召回率。這些結(jié)果強(qiáng)調(diào)了在未來(lái)的 LLM 應(yīng)用中保持多樣性的重要性，以進(jìn)一步提升摘要和問答的效果。??https://arxiv.org/abs/2502.09017??

為什么大模型需要學(xué)會(huì)"挑食"？

在開發(fā)大語(yǔ)言模型應(yīng)用時(shí)，我們常常遇到這樣的困境：面對(duì)海量文本數(shù)據(jù)，模型就像面對(duì)滿漢全席的新手食客，既想品嘗所有美味，又受限于"胃容量"（上下文窗口）。這種限制主要源自 Transformer 架構(gòu)的自注意力機(jī)制——每增加一個(gè) token，計(jì)算量就會(huì)呈平方級(jí)增長(zhǎng)。就像用 1000 塊拼圖拼一幅畫，每增加一塊新拼圖，都需要和之前所有 999 塊比對(duì)位置。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū) 圖片

盡管 GPT-4 已經(jīng)能將"胃容量"擴(kuò)展到 12.8 萬(wàn) token，但現(xiàn)實(shí)應(yīng)用中的挑戰(zhàn)依然嚴(yán)峻。想象你要開發(fā)一個(gè)法律咨詢系統(tǒng)，需要同時(shí)處理上百份判例文書；或者開發(fā)醫(yī)療診斷助手，要分析患者長(zhǎng)達(dá)十年的就診記錄。傳統(tǒng)解決方案就像讓食客只挑看起來(lái)最誘人的菜肴，但往往導(dǎo)致營(yíng)養(yǎng)失衡——過(guò)度選擇相似內(nèi)容，漏掉關(guān)鍵信息。

多樣性篩選：大模型的營(yíng)養(yǎng)師

這時(shí)候就需要引入"營(yíng)養(yǎng)師"角色——多樣性篩選算法。它們的核心思想就像米其林餐廳的品鑒流程：既要保證食材品質(zhì)（相關(guān)性），又要講究菜品搭配（多樣性）。目前主流的兩種"營(yíng)養(yǎng)搭配法"是：

1. 最大邊際相關(guān)（MMR）：精準(zhǔn)的膳食平衡

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū) 圖片

MMR 算法的工作方式就像米其林大廚選食材。假設(shè)要為貴賓準(zhǔn)備 8 道菜的套餐，主廚會(huì)：

1. 先選最符合客人偏好的主菜（比如龍蝦）
2. 接著選與主菜搭配又能帶來(lái)新味覺體驗(yàn)的輔菜（比如用松露而非普通蘑菇）
3. 持續(xù)平衡"客人喜好"和"菜單多樣性"

數(shù)學(xué)公式中的 α 參數(shù)就像口味調(diào)節(jié)旋鈕：α=0.7 時(shí)更注重菜品質(zhì)量，α=0.3 時(shí)強(qiáng)調(diào)菜品多樣性。在實(shí)際開發(fā)中，我們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)將 α 設(shè)置在 0.6-0.7 之間，能在問答任務(wù)中取得最佳效果。

2. 最遠(yuǎn)點(diǎn)采樣（FPS）：聰明的空間布局

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū) 圖片

FPS 算法源自 3D 點(diǎn)云處理，其原理就像城市規(guī)劃師選址：

1. 隨機(jī)選擇第一個(gè)消防站位置
2. 第二個(gè)選址離第一個(gè)最遠(yuǎn)
3. 第三個(gè)選址離前兩個(gè)最遠(yuǎn)的位置
4. 以此類推確保全面覆蓋

當(dāng)應(yīng)用于文本選擇時(shí)，這種策略能有效避免信息扎堆。比如處理醫(yī)療報(bào)告時(shí)，傳統(tǒng)方法可能會(huì)重復(fù)選擇"血壓升高"的相關(guān)描述，而 FPS 能同時(shí)保留"心電圖異常"、"腎功能指標(biāo)"等不同維度的關(guān)鍵信息。

為什么多樣性篩選能創(chuàng)造奇跡？

在我們的實(shí)驗(yàn)中，采用多樣性篩選帶來(lái)了三大突破性提升：

1. 召回率提升

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū) 圖片

在長(zhǎng)文本問答（Q&A）任務(wù)中，傳統(tǒng)方法傾向于選擇與查詢相似度最高的內(nèi)容，但這種方式容易導(dǎo)致信息冗余或遺漏關(guān)鍵細(xì)節(jié)。

通過(guò)引入最大邊際相關(guān)（MMR）和最遠(yuǎn)點(diǎn)采樣（FPS） 兩種多樣性篩選策略，顯著提升了候選內(nèi)容的召回率。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū) 圖片

實(shí)驗(yàn)顯示，在單文檔問答任務(wù)中，MMR和FPS相比基準(zhǔn)方法（SB）的召回率提升了2%-5%；

在多文檔問答任務(wù)中，MMR結(jié)合E5模型后，答案在檢索文檔中的召回率提升超過(guò)10%。

這種改進(jìn)源于多樣性篩選能覆蓋更廣泛的語(yǔ)義空間，減少重復(fù)內(nèi)容的干擾，確保關(guān)鍵信息不被遺漏。

2. 推理延遲降低 40%

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū) 圖片

盡管MMR和FPS均能提升召回率，但兩者的計(jì)算效率差異顯著。實(shí)驗(yàn)發(fā)現(xiàn)，MMR的延遲遠(yuǎn)低于FPS，尤其是在處理長(zhǎng)上下文時(shí)。例如，在自然問題（Natural Question）數(shù)據(jù)集上，當(dāng)壓縮比為0.2時(shí)，MMR的延遲僅為FPS的1/3。這一優(yōu)勢(shì)源于MMR采用余弦相似度計(jì)算，而FPS依賴歐氏距離，后者計(jì)算復(fù)雜度更高。此外，MMR支持動(dòng)態(tài)調(diào)整超參數(shù)（如窗口大小和權(quán)重），進(jìn)一步優(yōu)化了實(shí)時(shí)性能。因此，MMR更適合實(shí)際應(yīng)用場(chǎng)景，尤其是需要快速響應(yīng)的工業(yè)級(jí)系統(tǒng)。

3. 內(nèi)容順序的隱藏價(jià)值

內(nèi)容的排列順序?qū)LM的理解能力影響深遠(yuǎn)。研究發(fā)現(xiàn)，保持句子在原文中的順序（index sort） 能顯著提升問答準(zhǔn)確率。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū) 圖片

例如，在單文檔問答任務(wù)中，保持原始順序的MMR方法（SB+MMR index sort）相比亂序版本的性能高出3%-5%（如上圖）。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū) 圖片

而對(duì)于分塊（chunk）內(nèi)容，將關(guān)鍵塊置于提示的開頭或結(jié)尾可進(jìn)一步提升LLM的注意力（如上圖），這與“Lost in the Middle”現(xiàn)象一致——模型容易忽略中間位置的信息。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū) 圖片

此外，分塊大小也影響效果：512詞塊的表現(xiàn)優(yōu)于256詞塊和句子級(jí)分割（表7），說(shuō)明適度的上下文連貫性對(duì)模型推理至關(guān)重要。

實(shí)踐指南

在實(shí)際應(yīng)用中，總結(jié)了三大黃金法則：

1. 參數(shù)調(diào)優(yōu)四步法

? 第一步：確定基線 α=0.5

? 第二步：以 0.1 為步長(zhǎng)進(jìn)行網(wǎng)格搜索

? 第三步：驗(yàn)證集上評(píng)估召回率和生成質(zhì)量

? 第四步：根據(jù)任務(wù)類型微調(diào)（問答任務(wù)建議 α=0.6，摘要任務(wù) α=0.55）

2. 混合策略配置

對(duì)于超長(zhǎng)文本處理，可以采用分級(jí)篩選：

? 第一級(jí)用 FPS 快速粗選（窗口大小 100）

? 第二級(jí)用 MMR 精準(zhǔn)篩選（窗口大小 10）

? 最終按原文順序+相關(guān)性分?jǐn)?shù)排序

3. 避免的五個(gè)陷阱

? 盲目追求最大多樣性（α<0.4 會(huì)導(dǎo)致信息偏離）

? 忽視 embedding 模型的質(zhì)量（建議使用 bge-large-v1.5）

? 混合不同來(lái)源文檔時(shí)未做歸一化處理

? 固定窗口大小不調(diào)整（建議動(dòng)態(tài)設(shè)置：窗口大小=總 token 數(shù)/50）

? 忽略內(nèi)容順序的影響（特別是時(shí)序性文檔）

未來(lái)演進(jìn)方向

三個(gè)重要趨勢(shì)：

? 動(dòng)態(tài)多樣性調(diào)節(jié)：根據(jù)上下文復(fù)雜度自動(dòng)調(diào)整 α 參數(shù)

? 多模態(tài)擴(kuò)展：將圖像特征納入多樣性考量

? 自監(jiān)督微調(diào)：讓模型自主生成多樣性評(píng)估信號(hào)

站在開發(fā)者的角度，理解這些原理不僅能夠優(yōu)化現(xiàn)有系統(tǒng)，更能為設(shè)計(jì)新一代語(yǔ)言模型提供啟發(fā)。就像優(yōu)秀的廚師懂得食材搭配的藝術(shù)，聰明的開發(fā)者需要掌握信息篩選的平衡之道。將人類的信息處理智慧編碼進(jìn)算法，大模型才能真正成為稱職的"信息美食家"。

本文轉(zhuǎn)載自 ??大語(yǔ)言模型論文跟蹤??，作者：HuggingAGI

標(biāo)簽

RAG

Salesforce

LLMs

贊

回復(fù)