成本降低1000倍!微軟將開源超強RAG— LazyGraphRAG
今年7月,微軟首次開源了超大知識索引GraphRAG,僅4個多月的時間在Github已超過19000顆星,成為目前最火的RAG框架之一。
但GraphRAG在處理全局數據查詢時成本非常高,尤其是應用在那些大參數的AI模型中格外明顯,查詢的過程中也存在延遲、不準確等問題。
今天凌晨,微軟研究院發布了GraphRAG迭代版本——LazyGraphRAG。這個RAG的最大亮點之一就是成本非常低,數據索引成本只有完整版GraphRAG的0.1%,同時采用了全新混合數據搜索方法,生成結果的準確率、效率等卻更好,很快發布開源版本并加入到GraphRAG庫中。
開源地址:https://github.com/microsoft/graphrag?tab=readme-ov-file
下面「AIGC開放社區」將根據微軟官方博客發布的內容,為大家詳細解讀LazyGraphRAG的技術區別,同時回顧一下GraphRAG。
LazyGraphRAG技術特點
微軟之前開源的GraphRAG在數據索引階段,主要依賴于大模型來提取和描述實體及其關系,并且會為每個實體和關系生成總結。
這個過程涉及到圖統計來優化實體圖,并提取出層次化的社區結構。不過這種方法的成本非常高,因為它需要借助大量的語言模型處理,使得GraphRAG的數據索引成本非常非常貴。
與GraphRAG不同是,LazyGraphRAG在數據索引階段不進行任何預先的總結或嵌入生成,而是采用NLP名詞短語提取來識別概念及其共現關系,然后再通過圖統計來優化概念圖,并提取層次社區結構。這使得LazyGraphRAG的索引成本極低,僅為GraphRAG的0.1%。也就是說將成本降低了1000倍。
在查詢處理方面,GraphRAG使用廣度優先搜索來確保查詢回答時考慮了整個數據集的廣度,而LazyGraphRAG則結合了最佳優先搜索和廣度優先搜索的動態,采用迭代加深的方式。首先按相似度排名文本片段,然后通過動態選擇相關社區來逐步細化查詢結果。
這種方法使得LazyGraphRAG能夠支持本地和全局查詢,同時在考慮整個數據集的廣度的同時,高效地找到最佳匹配的文本塊。
在靈活性和擴展性方面,GraphRAG由于其豐富的總結信息,可以用于多種用途,但高成本限制了其在一次性查詢和探索性分析中的使用。LazyGraphRAG則提供了統一的查詢接口,支持本地和全局查詢,非常靈活,適合一次性查詢、探索性分析和流式數據使用場景。
在應用場景上,GraphRAG適合需要高質量、全面查詢結果的場景,例如,企業級知識管理和復雜數據分析等。而LazyGraphRAG則適合需要高效處理全局查詢且對成本敏感的場景,如中小企業和個人開發者的內容推薦系統和項目管理工具,這對于那些資源有限的人來說非常友好。
LazyGraphRAG測試數據
為了評估LazyGraphRAG的性能,微軟設定了三種不同的預算,以觀察其在不同條件下的表現。
在最低預算水平下,100次相關性測試,并且使用低成本的大模型時,LazyGraphRAG展現出了顯著的優勢,在本地和全局查詢上的表現都優于其他所有方法。
在本地查詢中,LazyGraphRAG明顯超過了C1、C2、C3_Dynamic、LS、DRIFT、SS_8K、SS_64K和RAPTOR等方法。盡管GraphRAG全局搜索在全局查詢中有時表現較好,但LazyGraphRAG在成本效益上仍然占據了優勢。
當預算水平提高到500次,并且使用更高級的大模型時,LazyGraphRAG的優勢進一步顯現。它的成本僅為C2級別的4%,但性能卻顯著優于所有其他條件,包括C2級別的GraphRAG全局搜索。
這表明LazyGraphRAG不僅在成本上具有優勢,而且在查詢質量上也表現出色,無論是在本地查詢還是全局查詢中,都能提供更高質量的答案。
當達到1500次高預算時,LazyGraphRAG的優勢進一步加大。LazyGraphRAG在本地和全局查詢上的表現繼續提升,尤其是在全局查詢中,其獲勝率顯著高于其他方法。
即使在高預算條件下,LazyGraphRAG仍然保持了其成本效益和查詢質量的雙重優勢。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
原文鏈接:??https://mp.weixin.qq.com/s/QC0qR8Yf9uQhyCGPuMiGug??
