支付寶搜索中基于LLM的生成式檢索幻覺緩解技術方案 原創
基于LLM的生成式檢索(GR)在進行文檔知識檢索時或多或少的會引入幻覺,在一些對精度要求比較高的場景(如:金融等)如何緩解幻覺,下面來看下支付寶生成式檢索緩解幻覺方案,供參考。
方法
技術框架
如上圖所示,框架分為兩部分:知識蒸餾推理和決策Agent
知識蒸餾推理
目的:通過利用更大規模的LLM生成顯式的推理數據,增強較小規模的LLM-based GR模型的訓練。知識蒸餾推理模塊提升了GR模型的檢索精度,減少了幻覺現象。思路如下:
推理源數據構建
- 相關和無關查詢-文檔對的收集:
- 相關查詢-文檔對:從訓練語料庫 中采樣得到 。
- 無關查詢-文檔對:通過以下步驟獲?。?br>使用初步GR模型 對搜索日志中的查詢集 進行檢索,生成文檔集合 。
使用一系列開源LLM 對每個查詢-文檔對 進行相關性判斷,篩選出無關對 。prmopt如下:
- 只有當所有LLM都判定某個查詢-文檔對為無關時,才將其分類為無關。
- 構建推理源數據: 將相關和無關的查詢-文檔對組合成推理源數據 。
推理生成
- 使用推理生成器 (一個比GR模型 更強大的模型)生成高質量的推理過程。
- 輸入為查詢-文檔對及其相關性判斷結果,輸出為推理過程 。
- 使用下面Prompt進行推理生成:
蒸餾推理數據
將推理過程加入到訓練數據中,通過監督微調增強GR模型的理解能力。步驟如下:
- 推理過程的訓練損失函數為:
決策Agent
決策Agent的目的是進一步提高檢索精度??傮w流程如下:
- 輸入:
- 一個由GR模型檢索到的文檔 di。
- 候選文檔集合 D 。
- 步驟:
步驟1:使用檢索模型進行初步檢索,利用一個檢索模型(RM),可以是稀疏檢索(SR)或密集檢索(DR),為GR檢索到的文檔 di 檢索出最相關的m個文檔 {di-1,...,di-m}。
步驟2:使用LLM進行多角度評估:使用一個強大的LLM(例如Qwen2.5-32B)從多個角度評估這些文檔與查詢的相關性。在本文的場景中,結構化信息如產品公司、產品類型和產品期限被用作評估的不同視角。prompt如下:
步驟3:篩選最終結果:只有在所有評估視角下都被認為相關的文檔才會被保留作為最終的檢索結果??梢钥醋魇?strong>多個LLM都投票一致。
實驗性能
離線性能比較:與基線GR模型相比,提出的方法在基金數據和保險數據上的準確率(ACC)分別提高了3.34%和4.22%。與檢索基線模型BM25相比,基金數據上的ACC提高了17.84%,保險數據上提高了42.72%。
消融研究:移除推理組件導致基金檢索準確率下降2%,保險檢索下降2.39%。決策代理模塊分別提高了基金檢索準確率1.67%和保險檢索準確率3.88%。這進一步驗證了推理和決策代理模塊在提高生成式檢索精度方面的有效性。
在線A/B測試:在支付寶的基金搜索和保險搜索中進行了在線A/B測試,結果表明在點擊頁面瀏覽量(Click_PV)、點擊獨立訪客數(Click_UV)、交易次數(Trade_Count)和交易獨立訪客數(Trade_UV)等關鍵搜索指標上均有顯著改進,統計顯著性水平為95%(p值<0.05)。這表明所提方法在實際應用中也能顯著提高搜索質量和轉化率。
案例
參考文獻:Alleviating LLM-based Generative Retrieval Hallucination in Alipay Search,https://arxiv.org/pdf/2503.21098v2
本文轉載自??大模型自然語言處理?? 作者:余俊暉
