基于KG生成語料增強解決RAG問答幻覺問題的簡單框架-Walk&Retrieve 原創
Walk&Retrieve基于知識圖譜,利用基于圖遍歷和知識表述來進行零樣本RAG的語料庫生成。解決RAG系統的幻覺問題。該框架思路比較簡單,核心點在于零樣本RAG的語料庫生成,下面來看看,供參考。
方法架構
語料生成
在框架中,語料生成該方法的核心步驟。該階段從知識圖譜中提取相關信息,并將其轉化為適合LLM處理的文本格式。語料生成包括以下幾個步驟:基于圖的遍歷、知識表示和索引。
1.基于圖的遍歷
隨機游走:隨機游走是一種隨機過程,從一個節點開始,每次以均勻的概率選擇當前節點的鄰居節點進行移動。
- 優點:簡單易行,適用于大規模圖譜。
- 缺點:可能會產生重復路徑和噪聲。
廣度優先搜索-BFS游走:BFS是一種圖遍歷算法,從根節點開始,逐層訪問其鄰居節點。對于每個根節點
構建一個層次結構,每一層的節點表示與根節點的最短路徑距離。然后,按照層次順序進行遍歷,確保每個節點只被訪問一次。
其中,L0={v2},d 是最大深度。
- 優點:避免了重復路徑,生成的游走路徑更加多樣化。
- 缺點:計算復雜度較高,尤其是在深層遍歷時。
2.知識表示
LLM需要文本輸入,需要將提取的圖遍歷路徑轉換為自然語言描述。使用預定義的提示模板,將每個節點的游走路徑轉化為自然語言句子。例如,對于一個隨機游走的路徑 ,可以生成類似“ 通過關系 連接到 ,而 通過關系 連接到 ”的句子。
預定義的提示模板
3.索引
將每個游走路徑 轉換為向量表示,并計算每個節點的全局表示,作為其所有游走路徑向量的拼接。將節點及其對應的游走路徑向量存儲起來,便于在推理階段進行快速檢索。
檢索問答
該階段不是重點,與傳統的RAG相同,包括將query編碼、相似性檢索(k近鄰搜索)、上下文整合、答案生成。
答案生成prompt模板
實驗性能
MetaQA上的性能:Walk&Retrieve-BFS在答案準確性和減少虛假答案方面表現最佳,相對提高了38.64%。其他基于KG的RAG系統雖然準確性高,但虛假答案更多。Walk&Retrieve-BFS在1跳、2跳和3跳問題上的真實性和減少無響應方面表現優異。
CRAG上的性能:Walk&Retrieve變體在答案準確性上優于僅使用LLM和基于文本的RAG,同時在虛假答案和無響應率上與之相當。由于CRAG的復雜性較高,Walk&Retrieve的性能略有下降,但仍表現出良好的魯棒性。
參考文獻:Walk&Retrieve: Simple Yet Effective Zero-shot Retrieval-Augmented Generation via Knowledge Graph Walks,https://arxiv.org/pdf/2505.16849v2
本文轉載自??大模型自然語言處理?? 作者:余俊暉
