CoT-RAG:用知識圖譜和智能檢索修復大語言模型推理的缺陷 原創
在當今數字化時代,大語言模型(LLMs)已經徹底改變了我們與信息交互的方式。從生成類人文本到翻譯語言,再到編寫代碼,它們的能力令人驚嘆。然而,當涉及到復雜的推理任務時,這些模型的表現卻常常不盡如人意。今天,我們要介紹的 CoT-RAG 框架,就是為了解決這一問題而誕生的。
一、大語言模型推理的困境
大語言模型(LLMs)如 GPT-4、Claude 和 Llama 等,以其強大的語言生成能力,已經在眾多領域得到了廣泛應用。然而,當它們被要求解決復雜的多步推理問題時,往往會暴露出一些問題。例如,在醫學、金融和法律等高風險領域,錯誤的推理可能導致嚴重的后果。
為了解決這一問題,研究人員提出了“思維鏈”(Chain-of-Thought,簡稱 CoT)提示技術。通過讓模型“逐步思考”,CoT 能夠在一定程度上改善 LLM 的推理能力。然而,CoT 并非萬能的。它仍然存在邏輯跳躍、事實誤解甚至“幻覺”等問題,尤其是在處理復雜的推理任務時。
二、CoT-RAG:一種創新的解決方案
CoT-RAG 是由華中科技大學、奧爾堡大學和華為技術有限公司的研究人員提出的一種新型框架。它通過將知識圖譜(Knowledge Graphs,簡稱 KGs)和檢索增強生成(Retrieval-Augmented Generation,簡稱 RAG)直接整合到思維鏈過程中,旨在提高 LLM 推理的可靠性、透明度和準確性。
CoT-RAG 的核心在于其三大支柱:知識圖譜驅動的思維鏈生成、案例感知的 RAG 以及偽程序提示執行(Pseudo-Program Prompting,簡稱 PsePrompting)。接下來,我們將詳細探討這三大支柱是如何協同工作的。
三、知識圖譜驅動的思維鏈生成
CoT-RAG 的第一步是為推理過程建立可靠的結構。它利用決策樹(Decision Trees,簡稱 DTs)和知識圖譜(KGs)的力量。決策樹是一種在分類和回歸領域廣泛使用的工具,因其邏輯連貫性和可解釋性而備受青睞。在 CoT-RAG 中,專家提供了一個粗粒化的決策樹,代表特定領域解決問題的高級邏輯。
然而,手動設計細粒化的決策樹是一項繁瑣的工作。CoT-RAG 利用 LLM 自身的能力,將專家提供的粗粒化決策樹節點分解為更詳細的知識圖譜。知識圖譜擅長清晰地表示實體及其關系,非常適合捕捉復雜推理過程中的復雜依賴關系。
例如,一個簡單的決策樹節點“這個人需要走多少趟?”可以被 LLM 分解為多個知識圖譜中的實體,每個實體代表一個子問題,并具有四個關鍵屬性:子問題、子案例、子描述(初始為空)和答案(初始為空)。通過這種方式,知識圖譜不僅標準化了推理過程,還提高了推理的可控性和透明度。
四、案例感知的 RAG:動態知識檢索
有了結構化的知識圖譜后,如何確保 LLM 在解決具體問題時能夠獲取正確的事實信息呢?這就是 CoT-RAG 獨特的 RAG 集成發揮作用的地方。與傳統的 RAG 方法不同,CoT-RAG 在知識圖譜的每個相關節點動態檢索信息。
具體來說,用戶輸入問題描述后,LLM 會使用知識圖譜中特定實體的子問題和子案例作為提示,從用戶輸入中提取相關的事實片段,并將其填充到知識圖譜的子描述屬性中。這一過程不僅為 LLM 提供了具體問題的上下文和事實依據,還減少了模型“幻覺”或使用錯誤假設的可能性。
此外,CoT-RAG 還允許系統根據用戶輸入動態更新知識圖譜的知識庫,使其能夠適應不斷變化的場景或領域。這種“案例感知”的 RAG 方法不僅提高了推理的準確性,還增強了系統的適應性。
五、偽程序提示執行:邏輯嚴謹的推理執行
有了結構化的知識圖譜和動態檢索的事實信息后,接下來的挑戰是如何可靠地執行推理鏈。CoT-RAG 引入了偽程序提示執行(PsePrompting),這是一種介于自然語言和嚴格編程代碼之間的中間形式。
偽程序將知識圖譜中的推理步驟及其依賴關系以更嚴謹的邏輯形式表示出來,同時保持了足夠的靈活性和可讀性。例如,在處理一個簡單的算術問題時,偽程序可以清晰地定義每個步驟的輸入、輸出以及依賴關系,從而避免了自然語言的歧義和嚴格編程代碼的限制。
通過偽程序,LLM 可以按照定義好的邏輯順序逐步執行推理過程,同時利用動態檢索到的事實信息進行計算和推斷。這種方法不僅提高了推理的準確性,還使得推理過程更加透明和可解釋。
六、CoT-RAG 的實驗與分析
研究人員對 CoT-RAG 進行了廣泛的實驗,測試了其在九個公開基準數據集上的表現,這些數據集涵蓋了算術推理、常識推理和符號推理三大類別。實驗結果表明,CoT-RAG 在所有數據集和 LLM 上的表現均優于現有的基線方法,平均準確率提高了 4% 至 23%。
特別是在復雜問題上,CoT-RAG 的優勢更為明顯。隨著問題復雜度的增加(以知識圖譜分解生成的實體數量衡量),CoT-RAG 的準確率與其他方法的差距進一步擴大。這表明 CoT-RAG 非常適合處理多步復雜推理任務。
此外,研究人員還進行了消融研究、魯棒性分析和可擴展性測試。結果表明,CoT-RAG 的三大支柱——知識圖譜、案例感知 RAG 和偽程序提示——都對推理性能有顯著貢獻。同時,CoT-RAG 在不同偽程序語言、不同知識案例和不同專家設計的決策樹下均表現出良好的魯棒性。
在可擴展性方面,CoT-RAG 在法律、金融等特定領域的數據集上表現出色,顯著優于傳統的向量檢索方法和基于圖的 RAG 方法。這表明 CoT-RAG 在復雜推理任務中具有更高的效率和準確性。
七、CoT-RAG 的意義與未來展望
CoT-RAG 為大語言模型的可靠推理提供了一種全新的思路。通過將知識圖譜、動態知識檢索和偽程序提示相結合,它不僅提高了推理的準確性,還增強了推理過程的透明度和適應性。這對于那些對可靠性要求極高的領域,如法律、金融和醫療等,具有重要的意義。
然而,CoT-RAG 也存在一些局限性。例如,它目前依賴于強大的 LLM,而這些模型可能并不總是易于獲取。此外,初始決策樹的構建需要依賴領域專家的知識,這可能會限制其在某些領域的應用。
未來的研究方向可能包括減少對專家知識的依賴、探索混合執行模型(在某些步驟中使用代碼,在其他步驟中使用偽程序提示),以及進一步研究知識案例的動態更新機制。
總之,CoT-RAG 為我們提供了一個構建下一代可靠 AI 系統的有力框架。它不僅讓大語言模型的推理更加可靠,還為我們在受監管行業中設計和審計 AI 系統提供了新的思路。
?
本文轉載自??Halo咯咯??? 作者:基咯咯
