成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

知識圖譜與LLM接口優化:突破復雜推理的性能瓶頸 精華

發布于 2025-6-9 00:48
瀏覽
0收藏

引言:知識圖譜與大語言模型的融合挑戰

隨著人工智能技術的快速發展,大型語言模型(LLMs)已經在自然語言處理領域展現出驚人的能力。基于Transformer架構的LLMs在開放域問答、文本摘要和內容生成等任務中表現出色,并在醫療、金融、法律和科學等多個領域得到廣泛應用。然而,這些模型也面臨著一些固有的局限性:它們容易產生自信但錯誤的輸出(幻覺現象),并且缺乏在不重新訓練的情況下更新或擴展知識的有效機制。

檢索增強生成(RAG)技術的出現為解決這些問題提供了一種標準方法。在典型的RAG流程中,密集檢索器會為給定查詢選擇相關的文本上下文,然后將檢索到的內容附加到查詢中,再由LLM進行處理。這種設計提高了輸出的事實準確性,并允許模型參考外部信息源。然而,標準RAG系統在處理涉及多步推理或需要結構化訪問關系知識的問題時往往力不從心,僅依靠密集或稀疏文檔檢索是不夠的。

為了應對這些挑戰,將知識圖譜(KGs)集成到RAG工作流中的混合方法受到了越來越多的關注。這些系統(有時被稱為GraphRAG)使用圖結構來表示關系結構,并支持基于符號查詢或多跳圖遍歷的檢索。基于圖的檢索為LLM提供了對明確、結構化上下文的訪問,在需要深層次推理的任務中展現出巨大潛力。

然而,無論是傳統RAG系統還是基于圖的RAG系統,都面臨著超參數敏感性的挑戰。這些系統的性能嚴重依賴于一系列配置選擇,包括文本塊大小、檢索器類型、top-k閾值和提示模板等。隨著系統變得更加模塊化和復雜,可調參數的數量增加,它們之間的相互作用也變得更加復雜。雖然超參數優化在標準RAG系統中已有探索,但在圖增強系統中的作用仍未被充分研究。

本文旨在填補這一研究空白,通過對基于圖的RAG系統進行結構化的超參數優化研究,重點關注結合非結構化輸入、知識圖譜構建、檢索和生成的任務。我們的實驗基于Cognee框架,這是一個支持端到端圖構建和檢索的開源模塊化系統。Cognee的模塊化設計允許管道組件的清晰分離和獨立配置,使其非常適合進行受控的優化研究。

相關工作

RAG系統的進展與挑戰

檢索增強生成(RAG)系統通過檢索模塊擴展語言模型,使輸出能夠基于外部知識。這種基本的兩階段架構已成為事實標準,并隨著時間推移提出了許多改進。近期工作包括Self-RAG,它使LLMs能夠反思自己的輸出并動態觸發檢索;以及CRAG,它使用檢索評估器過濾低置信度文檔,并在需要時升級到網絡搜索。

多跳問答

多跳問答擴展了標準問答,需要對多個文檔進行推理。早期數據集如HotPotQA通過眾包方式在維基百科上創建此類問題。2WikiMultiHopQA通過利用Wikidata關系來強制執行結構化、可驗證的推理路徑,對此進行了改進。MuSiQue采用自下而上的方法,從單跳原語組合多步問題并過濾掉虛假捷徑,為組合推理提供更強大的基準。

知識圖譜問答

知識圖譜問答(KGQA)系統通過圖上的結構化推理回答問題,越來越多地集成LLMs以橋接符號和神經推理。RoG提示LLMs生成抽象關系路徑,這些路徑在最終答案生成之前通過圖遍歷進行實例化。其他工作包括可訓練的子圖檢索器和子圖上的分解邏輯推理鏈,在可解釋性和性能方面都展示了可測量的提升。

GraphRAG

GraphRAG將RAG泛化到任意圖結構,擴展其用途超出知識庫。早期系統如微軟的摘要管道使用LLMs構建知識圖譜,使用社區檢測對其進行分區,并總結每個組件。其他變體使用GNNs與子圖選擇、圖遍歷代理或無模式圖上的個性化PageRank。這些系統涵蓋廣泛的任務,但共享一個共同結構:動態子圖構建,然后是基于提示的推理。

RAG中的超參數優化

優化RAG系統需要平衡檢索覆蓋率、生成準確性和資源約束。近期工作在預算限制下應用貝葉斯優化,將上下文使用作為可調變量,并通過強化學習引入全管道調優。多目標框架也已出現,以權衡準確性、延遲和安全性。雖然方法各異,但都旨在暴露和控制現代RAG管道中的關鍵自由度。

Cognee:自動化知識圖譜構建框架

Cognee是一個開源框架,用于端到端知識圖譜(KG)構建、檢索和補全。它支持異構輸入(如文本、圖像、音頻),從中提取實體和關系,可能借助本體模式。提取過程在容器化環境中運行,基于任務和管道,每個階段都可通過配置或代碼擴展。

默認管道包括攝取、分塊、基于大型語言模型(LLM)的提取,以及索引到圖、關系和向量存儲后端。在索引之后,Cognee提供內置組件用于檢索和補全。統一接口支持向量搜索、符號圖查詢和混合圖-文本方法。補全建立在相同的基礎設施上,支持基于提示的LLM交互和結構化圖查詢。

Cognee還包括一個可配置的評估框架,用于基準測試檢索和補全工作流。該框架基于多跳問答,使用成熟的基準(HotPotQA、TwoWikiMultiHop)為基于圖的系統提供結構化評估環境。評估按順序進行不同階段:從語料庫構建開始,然后是利用檢索和補全組件的上下文條件回答。然后將答案與黃金參考進行比較,并使用多種指標進行評分。最終輸出包括置信度評分的性能報告。

Cognee的模塊化使得能夠在攝取、檢索和補全階段進行有針對性的超參數調整。評估框架提供結構化、量化的反饋,使整個系統可以被視為一個目標函數。這種設置使得可以直接應用標準超參數優化算法。

超參數優化設置

優化框架

Cognee暴露多個可配置組件,這些組件影響檢索和生成行為,包括與預處理、檢索器選擇、提示設計和運行時設置相關的參數。為了系統地評估這些設計選擇的影響,我們開發了一個名為Dreamify的超參數優化框架。

Dreamify將整個Cognee管道視為一個參數化過程,包括攝取、分塊、基于LLM的提取、檢索和評估。單個配置定義所有階段的行為。每次試驗對應一個完整的管道運行,從語料庫構建開始,以對基準數據集的評估結束。輸出是基于多種指標(如F1、精確匹配或基于LLM的正確性)的標量分數。這些指標計算為數據集中所有問題的平均值,返回0到1之間的值。

優化使用樹結構Parzen估計器(TPE)執行。該算法非常適合搜索空間,該空間結合了分類和有序整數值參數。在這種規模下,網格搜索不切實際,隨機搜索在早期測試中表現不佳。雖然TPE對我們的實驗足夠,但其他優化策略仍有待未來工作探索。

管道行為對固定配置是確定性的,盡管某些組件(如LLM生成的圖構建)在運行之間表現出微小變化。這些差異不會實質性影響單個配置內的整體評估分數。試驗是獨立且可重現的。

可調參數

優化過程考慮六個核心參數,這些參數影響文檔處理、檢索行為、提示選擇和圖構建。每個參數影響信息如何被分段、檢索或在答案生成期間使用。

塊大小(chunk_size)

此參數控制在圖提取前用于分段文檔的標記數量。在Cognee管道中,它影響生成圖的結構和檢索期間可用上下文的粒度。本研究中使用的范圍(200-2000個標記)基于初步測試選擇,以平衡提取準確性、檢索特異性和處理時間。

檢索策略(search_type)

此參數確定如何選擇用于答案生成的上下文。cognee_completion策略使用向量搜索檢索文本塊,并直接將它們傳遞給語言模型。cognee_graph_completion策略通過結合向量相似性和圖結構檢索知識圖譜節點及其關聯的三元組。檢索到的節點被簡要描述,周圍的三元組被格式化為結構化文本。檢索到的節點和三元組的結構化格式強調關系上下文,可能支持更有效的多跳推理。

Top-K上下文大小(top_k)

此參數設置每個查詢檢索的項目數量。使用cognee_completion時,它控制文本塊的數量;使用cognee_graph_completion時,它控制圖三元組的數量。檢索到的上下文傳遞給語言模型進行答案生成。在我們的實驗中,值范圍從1到20。

問答提示模板(qa_system_prompt)

此參數選擇用于答案生成的指令模板。模板在風格和特異性上有所不同,從簡潔提示到更詳細的指令,鼓勵證明或結構化輸出。提示選擇可以影響答案格式和事實精確性。

提示模板(qa_system_prompt,graph_prompt)

這些參數控制在答案生成和圖構建期間使用的指令模板。對于問答,我們評估了三種提示變體,主要在語氣和冗長度上有所不同。雖然基本指令保持一致,但更受約束和直接的提示通常產生與預期答案格式更緊密對齊的輸出。這對評估分數有顯著影響,特別是對精確匹配和F1,盡管正確性分數也在較小程度上受到影響。對于圖構建,也測試了三種提示,它們在引導LLM從文本中提取實體和關系的方式上有所不同——要么一步完成,要么通過更結構化、漸進的指令。這種選擇影響了檢索期間使用的生成圖結構的粒度和一致性。

任務處理方法(task_getter_type)

此參數控制在評估期間如何預處理問答對。雖然系統可以支持任意管道變體,但我們專注于兩種代表性配置。在第一種配置中,文檔摘要在圖構建期間生成,并可供檢索器使用。在第二種配置中,省略摘要生成。

實驗設置

我們進行了一系列九個超參數優化實驗,以評估配置選擇對Cognee端到端性能的影響。每個實驗對應一個不同的基準數據集和評估指標組合。使用的數據集為HotPotQA、TwoWikiMultiHop和Musique。每個實驗針對三種指標之一:精確匹配(EM)、F1或DeepEval的基于LLM的正確性。

對于每個實驗,我們創建了基準的過濾子集。實例被隨機抽樣,然后在實驗前進行手動審查。我們排除了不符合語法、模糊、標簽錯誤或由提供的上下文不支持的示例。類似問題在先前文獻中已有注意。結果評估集由每個數據集24個訓練實例和12個測試實例組成。這一過濾步驟在任何調整之前進行一次,以避免偏見或挑選。

在每次試驗中,使用訓練集中的所有上下文段落構建知識圖譜。這為每次試驗生成單個合并圖,然后用于回答所有訓練問題。管道結構在所有數據集和指標中保持一致。

每個實驗包括50次試驗。在每次試驗中,優化器抽樣一個配置并執行完整的管道運行,包括攝取、圖構建、檢索和答案生成。所選指標在所有訓練問題上計算,結果分數用作試驗的目標值。EM和F1分數確定性計算。DeepEval正確性分數需要單獨的基于LLM的評估步驟。

試驗按順序運行,不并行化。每次試驗的執行時間約為30分鐘。最終結果報告使用從訓練中選擇的最佳性能配置在測試集上的性能。除了點估計外,我們還報告使用對單個問答對的非參數bootstrap重采樣計算的置信區間。

結果與討論

訓練集性能

知識圖譜與LLM接口優化:突破復雜推理的性能瓶頸-AI.x社區

(a) Musique

知識圖譜與LLM接口優化:突破復雜推理的性能瓶頸-AI.x社區

(b) TwoWikiMultiHop

知識圖譜與LLM接口優化:突破復雜推理的性能瓶頸-AI.x社區

(c) HotPotQA

圖1:Musique、TwoWikiMultiHop和HotPotQA的運行最大性能曲線。

優化導致所有數據集和指標的一致改進。雖然基線設置是合理且手動選擇的,但它們沒有針對特定評估條件進行調整。相對改進通常是顯著的,特別是對于精確匹配,其中幾個基線接近或恰好為零。這主要是由于答案風格的不匹配:系統的默認配置調整為更具對話性的輸出,而基準更傾向于更短、更干的答案。鑒于EM作為指標的嚴格性,即使事實正確的響應也經常被懲罰。

盡管表現出明顯的改進,但這些結果應謹慎解釋。

保留集性能

為了評估泛化能力,我們在保留測試集上評估了每個實驗的最佳配置。與基線相比的收益仍然可見,但比訓練中不那么明顯。大多數指標適度下降,在一種情況下(TwoWikiMultiHop上的F1),測試性能略微超過了訓練分數。這些結果表明,任務特定優化合理地泛化,即使應用于來自同一基準的未見示例。

一些變異性可能歸因于保留集的小規模和基準問答實例的不均勻質量,這是文獻中注意到的限制。我們使用簡單的訓練設置,沒有早停或正則化,這也可能解釋部分觀察到的退化。然而,在大多數情況下改進持續存在的事實表明,即使基本的優化過程也能產生可泛化的收益。雖然這不是本研究的主要焦點,但這些結果表明,未來的工作可以探索更強大的調整機制,特別是在更大或特定領域的數據集上。

討論

優化過程使用樹結構Parzen估計器(TPE),選擇它是因為其能夠導航離散和混合參數空間。TPE在識別改進的配置方面是有效的,盡管試驗級別的性能有時是不穩定的。更穩定或表達能力更強的優化策略可能會產生更一致的結果,探索這些替代方案仍然是未來工作的方向。

實驗也強調了標準評估指標的局限性。精確匹配和F1經常懲罰語義上正確但措辭與參考不同的輸出。相比之下,基于LLM的正確性分數對詞匯變化更寬容,但引入了自己的不一致性。幾個幾乎逐字的答案獲得了不到滿分的分數,表明LLM評分者引入了噪聲,特別是圍繞格式敏感性和隱含假設。

高性能配置通常共享參數設置,特別是塊大小和檢索方法。然而,大多數效果是非線性和任務特定的,沒有單一配置在所有基準上表現最佳。這突顯了在檢索增強管道中經驗調整的重要性,并表明跨任務泛化需要適應,而不僅僅是重用。

雖然完全泛化超出了本研究的范圍,但結果支持系統調整在實踐中既可實現又有用的主張。觀察到的收益,雖然在某些情況下很小,但表明僅配置級別的變化就能影響下游性能。檢索增強系統受益于有針對性、任務感知的調整,性能-過擬合權衡可以在不顯著改變架構或增加復雜性的情況下管理。

結論

我們證明,在基于圖的檢索增強生成系統中系統化的超參數調整可以導致一致的性能改進。Cognee的模塊化架構使我們能夠在圖構建、檢索和提示中隔離和改變配置參數。應用于三個多跳問答基準,這種設置使我們能夠檢查調整如何影響標準評估指標。雖然在各任務中觀察到改進,但其幅度各異,收益通常對指標和數據集都敏感。

展望未來,有幾個自然的進一步工作方向。技術上,優化過程可以使用替代搜索算法、更廣泛的參數空間或多目標標準進行擴展。我們的評估專注于知名的問答數據集,但自定義基準和特定領域任務將有助于探索泛化能力。圖增強RAG系統的排行榜或共享基準基礎設施也可以支持這一領域的進展。

雖然基于問答的指標提供了評估管道性能的實用手段,但它們并不能完全捕捉基于圖的系統的復雜性。不同配置之間結果的變異性表明,收益不太可能僅來自通用調整。相反,我們的結果指向任務特定優化策略的潛力,特別是在領域結構發揮核心作用的環境中。我們預計,未來在學術和應用背景交叉點的工作將發現更多有針對性調整的機會。

更廣泛地說,我們認為通過認知化的鏡頭查看這一過程是有用的,認知化是一個描述智能如何嵌入物理系統的概念。我們將Cognee等框架的發展視為向反映這一范式的系統轉變的更廣泛轉變的一部分,它們的優化同樣發揮著重要作用。這些系統的認知化不會僅通過設計發生,而是通過它們如何隨時間調整、測量和適應。

參考資料

論文鏈接:https://arxiv.org/abs/2505.24478

本文轉載自????頓數AI??,作者:小頓

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 99久久婷婷国产综合精品 | 天天看天天爽 | 久久一 | 一区二区三区在线 | 欧 | 国内精品久久久久久 | 免费福利视频一区二区三区 | 国产精品日韩欧美一区二区三区 | 天天干视频在线 | 日日夜夜精品视频 | 黄色成人国产 | 欧美一级片免费看 | 成人不卡视频 | 日韩毛片中文字幕 | 国产91 在线播放 | 亚洲男女视频在线观看 | 亚洲综合大片69999 | 午夜性视频 | 欧美成人精品在线 | 日韩成人在线免费视频 | 亚洲自拍偷拍免费视频 | 国产成人精品一区二区在线 | 一区二区三区视频在线免费观看 | 99免费看 | 91福利在线导航 | 久久久久亚洲 | 欧美成人一区二免费视频软件 | 91免费观看国产 | 色爱综合网 | 亚洲精品一区二区三区四区高清 | av大片 | 亚洲国产精品视频一区 | 久久福利电影 | 一区二区三区四区av | 欧美一级二级在线观看 | 成人免费看电影 | 日韩高清www | 亚洲高清免费观看 | 国产一二三区在线 | 亚洲成人一区二区三区 | 国产精品久久久久久久久久软件 | 日本成人在线播放 |