“RAG界的DeepSeek”開源-企業復雜私域知識理解與推理框架PIKE-RAG

作者：余俊暉 2025-02-17 03:00:00

PIKE-RAG框架主要由幾個基本模塊組成，包括文檔解析、知識抽取、知識存儲、知識檢索、知識組織、以知識為中心的推理以及任務分解與協調。

PIKE-RAG框架的設計目標是提供一個靈活且可擴展的RAG系統，應對工業應用中復雜多樣的任務需求。框架的核心是通過有效的知識提取、理解和組織，以及構建連貫的推理邏輯，解決了RAG系統在工業應用中的局限性。下面來看下PIKE-RAG框架及其實現過程，供參考。

PIKE-RAG框架

PIKE-RAG框架主要由幾個基本模塊組成，包括文檔解析、知識抽取、知識存儲、知識檢索、知識組織、以知識為中心的推理以及任務分解與協調。

PIKE-RAG框架

從上圖可以看到，相比傳統的RAG框架，PIKE-RAG框架的核心是構建一個多層次的異質圖作為知識庫，涵蓋信息資源層、語料庫層和蒸餾知識層。每一層代表不同的信息抽象和粒度級別，支持在不同尺度上探索和檢索相關知識。

圖片

文件解析模塊負責處理各種類型的文件，這包括處理掃描文檔、圖像和復雜的表格等。為了保留多模態元素（如圖表），框架采用布局分析技術，并使用視覺語言模型來描述圖表內容，以確保信息的完整性。

關于PDF相關文檔解析，筆者在前面系列中有許多詳細的技術鏈路可以參考《文檔智能記錄鏈路合集》

文檔解析流程

知識庫被構建為一個多層次的異質圖，包括信息資源層、語料庫層和蒸餾知識層。每個層次代表不同的信息粒度和抽象級別。

多層次的異質圖

可以在知識提取過程中使用上下文感知切分技術、自動術語標簽對齊技術和多粒度知識提取方法來提高知識提取和檢索的準確率，從而增強事實信息檢索能力，如下面的流程所示：

方塊表示知識提取模塊中增強的分塊和自動標注子模塊

增強的分塊：分塊是將大文本分割成小塊的過程，以提高檢索效率和準確性。PIKE-RAG采用一種文本分割算法，迭代地將文本分割成小塊，同時保持上下文的連貫性。
自動標注：自動標注模塊用于最小化源文檔和查詢之間的域差距。通過提取和映射領域特定的標簽，提高檢索的召回率和精確率。
多粒度檢索：在多層次的異質圖上進行多粒度檢索，允許系統在不同層次上探索和檢索相關信息。通過計算查詢和圖節點之間的相似性得分，并進行傳播和聚合，優化檢索過程。