“RAG界的DeepSeek”開源-企業復雜私域知識理解與推理框架PIKE-RAG
PIKE-RAG框架的設計目標是提供一個靈活且可擴展的RAG系統,應對工業應用中復雜多樣的任務需求。框架的核心是通過有效的知識提取、理解和組織,以及構建連貫的推理邏輯,解決了RAG系統在工業應用中的局限性。下面來看下PIKE-RAG框架及其實現過程,供參考。
PIKE-RAG框架
PIKE-RAG框架主要由幾個基本模塊組成,包括文檔解析、知識抽取、知識存儲、知識檢索、知識組織、以知識為中心的推理以及任務分解與協調。
PIKE-RAG框架
從上圖可以看到,相比傳統的RAG框架,PIKE-RAG框架的核心是構建一個多層次的異質圖作為知識庫,涵蓋信息資源層、語料庫層和蒸餾知識層。每一層代表不同的信息抽象和粒度級別,支持在不同尺度上探索和檢索相關知識。
實現過程
1.Level-0: 知識庫構建
圖片
1.1 文件解析
文件解析模塊負責處理各種類型的文件,這包括處理掃描文檔、圖像和復雜的表格等。為了保留多模態元素(如圖表),框架采用布局分析技術,并使用視覺語言模型來描述圖表內容,以確保信息的完整性。
關于PDF相關文檔解析,筆者在前面系列中有許多詳細的技術鏈路可以參考《文檔智能記錄鏈路合集》
文檔解析流程
1.2 知識組織
知識庫被構建為一個多層次的異質圖,包括信息資源層、語料庫層和蒸餾知識層。每個層次代表不同的信息粒度和抽象級別。
多層次的異質圖
- 信息資源層:捕獲多樣化的信息源,建立跨源的引用關系。
- 語料庫層:將解析的信息組織成段落和塊,保留文檔的原始層次結構,并集成多模態內容。
- 蒸餾知識層:將語料庫進一步提煉為結構化的知識形式(如知識圖、原子知識和表格知識),以支持高級推理。
2.Level-1: 事實性問題回答
可以在知識提取過程中使用上下文感知切分技術、自動術語標簽對齊技術和多粒度知識提取方法來提高知識提取和檢索的準確率,從而增強事實信息檢索能力,如下面的流程所示:
方塊表示知識提取模塊中增強的分塊和自動標注子模塊
- 增強的分塊:分塊是將大文本分割成小塊的過程,以提高檢索效率和準確性。PIKE-RAG采用一種文本分割算法,迭代地將文本分割成小塊,同時保持上下文的連貫性。
- 自動標注:自動標注模塊用于最小化源文檔和查詢之間的域差距。通過提取和映射領域特定的標簽,提高檢索的召回率和精確率。
- 多粒度檢索:在多層次的異質圖上進行多粒度檢索,允許系統在不同層次上探索和檢索相關信息。通過計算查詢和圖節點之間的相似性得分,并進行傳播和聚合,優化檢索過程。
3.Level-2: 可鏈接推理問題回答
基于上一層L1,增加一個任務分解與協調模塊,將復雜任務拆分為更小、可管理的子任務
深綠色(■)表示知識提取模塊中的原子知識生成,而深橙色(■)代表知識起源模塊中的知識重排和聚合子模塊。此外,淺藍色(■)表示以知識為中心推理模塊中的多跳推理、比較推理、總結子模塊。
- 知識原子化:知識原子化是將文檔中的知識分割成小的原子單元,以便更精細地檢索和使用。通過生成相關的問題作為知識索引,增強知識與查詢之間的匹配度。
- 知識感知的任務分解:任務分解模塊將復雜任務分解為更小的子任務,以提高系統的處理效率。通過生成和評估原子問題提案,動態調整檢索和推理過程。
- 知識感知任務分解器的訓練:通過收集和訓練數據,使任務分解器能夠更好地理解和處理領域特定的知識。通過強化學習等方法,優化任務分解和結果尋找過程。
4.Level-3: 預測性問題回答
Level-3專注于處理預測性問題,強調基于知識的預測能力。
深紅色(■)表示知識組織模塊中的知識構建和知識歸納,而深藍色(■)代表以知識為中心的推理模塊中的預測子模塊。
- 知識結構和歸納:在知識組織模塊中,通過結構化和歸納知識,支持高級分析和預測任務。通過分類和時間序列分析,優化知識的使用。
- 預測子模塊:在知識中心推理模塊中,引入預測子模塊,以支持基于知識的預測。通過歷史數據和邏輯推理,生成未來的預測。
5.Level-4: 創造性問題回答
L4系統實現的特點是整合多智能體系統,支持多視角思考。通過并行處理和集成不同的推理路徑,生成綜合和連貫的解決方案。這種思維依賴于事實信息和對基本原理及規則的理解。
實驗
參考文獻
- PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation,https://arxiv.org/pdf/2501.11551
- 開源地址:https://github.com/microsoft/PIKE-RAG