大型語言模型(LLM)能夠在短時間內生成非常流暢和連貫的文本,為人工智能的對話、創造性寫作和其他廣泛的應用開辟了新的可能性,然而,LLM也有著一些關鍵的局限性。它們的知識僅限于從訓練數據中識別出的模式,這意味著缺乏對世界的真正理解。同時,推理能力也是有限的,不能進行邏輯推理或從多種數據源來融合事實。面對更復雜、更開放的問題時,回答開始變得荒謬或矛盾,美其名曰“幻覺”。
為了彌補這些差距,檢索增強生成(RAG)系統開始涌現,其核心思想是從外部來源檢索相關知識,為 LLM 提供上下文,以便作出更明智的反應。現有的系統大多使用向量嵌入的語義相似度來檢索段落。然而,這種方法有它自己的缺點,如缺乏真正的相關性,無法聚合事實,也沒有推理鏈。這正是知識圖譜的應用領域。知識圖譜是..現實世界實體和關系的結構化表達。它們通過編碼上下文事實之間的相互聯系,克服了純向量搜索的缺陷,通過圖搜索可以跨多種信息源進行復雜的多級推理。
向量嵌入和知識圖譜的結合可以開啟更高水平的推理能力,進而提升LLM的準確性和可解釋性。這種伙伴關系提供了表層語義以及結構化知識和邏輯的完美融合,LLM 既需要統計學習,也需要符號表示。
圖片
1. 向量搜索的局限
大多數 RAG 系統依賴于通過文檔集合中段落的向量搜索過程來查找 LLM 的相關上下文。這一過程有幾個關鍵步驟:
- 文本編碼: 系統使用像 BERT 這樣的嵌入模型將文本從語料庫中的段落編碼成向量表示。每篇文章都被壓縮成一個密集的向量來捕捉語義。
- 索引: 這些通道向量在高維向量空間中進行索引,以實現快速的最近鄰搜索。流行的方法包括 Faiss 和 Pinecone等。
- 查詢編碼: 用戶的查詢語句也被編碼為使用相同嵌入模型的向量表示。
- 相似性檢索: 一個最近鄰搜索在索引的段落中運行,根據距離指標(如余弦距離)找到與查詢向量最接近的段落。
- 返回段落結果: 返回最相似的段落向量,提取原始文本為 LLM 提供上下文。
這種流水線有幾個主要的局限性:
- 通道向量可能無法完全捕獲查詢的語義意圖,嵌入不能表示某些推理連接,重要的上下文最終會被忽視。
- 把整個段落壓縮成單個向量會丟失細微差別,嵌入在句子中的關鍵相關細節會變得模糊。
- 匹配是為每個段落獨立完成的,沒有跨越不同段落的聯合分析,缺乏連接事實和得出需要匯總的答案。
- 排名和匹配過程是不透明的,沒有透明度來解釋為什么某些段落被認為更相關。
- 只有語義相似性被編碼,沒有表示關系,結構,規則和其他不同的連接之間的內容。
- 對語義向量相似性的單一關注導致檢索缺乏真正的理解。
隨著查詢變得越來越復雜,這些限制在無法對檢索到的內容進行推理方面變得越來越明顯。
2. 整合知識圖譜
知識圖譜表示實體和關系在相互連接的網絡中的信息,能夠實現跨內容的復雜推理,進而增強檢索的能力:
- 顯式的事實,事實直接作為節點和邊捕獲,而不是壓縮成不透明的向量,這保留了關鍵的細節。
- 上下文細節,實體包含了豐富的屬性,如提供關鍵上下文的描述、別名和元數據等。
- 網絡結構表達了關系建模實體之間的真實連接、捕獲規則、層次結構、時間線等。
- 多級推理基于關系遍歷以及連接來自不同來源的事實,可以推導出需要跨多個步驟進行推理的答案。
- 聯合推理通過實體解析鏈接到同一個現實世界的對象,從而允許進行集體分析。
- 可解釋的相關性,圖形拓撲提供了一種透明度,可以解釋為什么某些基于連接的事實是相關的。
- 個性化,捕獲用戶屬性、上下文和歷史交互以定制結果。
知識圖譜不是孤立的匹配,而是通過圖遍歷的過程能夠收集與查詢相關的相互關聯的上下文事實。可解釋的ranking基于圖的拓撲結構,通過編碼結構化事實、關系和上下文來增強檢索能力,從而實現精確的多步推理。與純向量搜索相比,這提供了更大的相關性和解釋能力。
3. 利用簡單約束改進知識圖譜的嵌入
在連續向量空間中嵌入知識圖譜是當前的研究熱點。知識圖譜可以將實體和關系表示為向量嵌入,以支持數學運算,額外的約束可以使表示更加優化,例如:
- 非負性約束,將實體嵌入限制為0到1之間的正值會導致稀疏性,明確地模擬了它們的正性質,并提高了可解釋性。
- 蘊涵約束,將對稱、反轉、合成等邏輯規則直接編碼為關系嵌入的約束來強制這些模式。
- 置信度建模,帶松弛變量的軟約束可以根據證據對邏輯規則的置信度進行編碼。
- 正則化,施加了有用的歸納偏差,只增加了一個投影步驟,而沒有使優化變得更加復雜。
- 可解釋性,結構化約束為模型所學習的模式提供了透明度,這解釋了推理過程。
- 精確性,約束通過將假設空間減少到符合要求的表示方法來提高泛化能力。
簡單通用的約束增加到知識圖譜的嵌入,從而產生更優化、更易于解釋和邏輯兼容的表示。嵌入獲得模仿真實世界結構和規則的歸納偏差,這對更準確和可解釋的推理并沒有引入太多額外的復雜性。
4. 集成多種推理框架
知識圖譜需要推理來得出新的事實,回答問題,并做出預測,不同的技術有著互補的優勢:
邏輯規則將知識表述為邏輯公理和本體,通過定理證明進行合理和完整的推理,實現有限的不確定性處理。而圖嵌入用于向量空間運算的嵌入式知識圖結構,能處理不確定性但缺乏表達性。神經網絡結合向量查找具有自適應性,但推理不透明。通過對圖結構和數據的統計分析能夠自動創建規則,但質量不確定。混合流水線通過邏輯規則進行編碼明確的約束,嵌入提供向量空間操作,神經網絡通過聯合訓練獲得融合的收益。使用基于案例、模糊或概率邏輯的方法來增加透明度,表達不確定性和對規則的置信度。通過將推斷的事實和學到的規則具體化到圖譜中來擴展知識,提供反饋循環。
關鍵是確定所需的推理類型,并將它們映射到適當的技術,結合邏輯形式、向量表示和神經元組件的可組合流水線提供了健壯性和可解釋性。
4.1 保持 LLM 的信息流
為 LLM 檢索知識圖譜中的事實會引入信息瓶頸,需要通過設計保持相關性。將內容分成小塊可以提高隔離性,但會失去周圍的上下文,這會阻礙分塊之間的推理。生成塊的摘要可以提供更簡潔的上下文,關鍵細節被壓縮以突出顯示意義。將附加摘要、標題、標記等作為元數據,以維護有關源內容的上下文。將原始查詢重寫為更詳細的版本,可以更好地針對 LLM 的需求進行檢索。知識圖譜的遍歷功能保持了事實之間的聯系,維護上下文。按時間順序或按相關性排序可以優化 LLM 的信息結構,將隱式知識轉換為為 LLM 所陳述的顯式事實可以使推理變得更容易。
目標是優化檢索知識的相關性、上下文、結構和顯性表達,以最大限度地提高推理能力。需要在粒度和內聚性之間取得平衡。知識圖關系有助于為孤立的事實構建上下文。
4.2 解鎖推理能力
知識圖表和嵌入式技術結合起來都有克服對方弱點的優勢。
知識圖譜提供了實體和關系的結構化表達。通過遍歷功能來增強復雜推理能力,處理多級推理;嵌入是在向量空間中為基于相似性的操作編碼信息,支持在一定尺度上進行有效的近似搜索,將潛在模式表面化。聯合編碼為知識圖譜中的實體和關系生成嵌入。圖神經網絡通過可微消息傳遞對圖結構和嵌入元素進行操作。
知識圖譜首先收集結構化知識,然后嵌入聚焦于相關內容的搜索和檢索,外顯知識圖關系為推理過程提供了可解釋性。推斷知識可以擴展為圖譜,GNN 提供了連續表示的學習。
這種伙伴關系可以通過模式識別!力和神經網絡的可擴展性增強了結構化知識的表示。這是推進語言人工智能需要統計學習和符號邏輯的關鍵。
4.3 用協同過濾改進搜索
協同過濾利用實體之間的聯系來加強搜索,一般過程如下:
- 構造一個節點表示實體和以邊表示關系的知識圖譜。
- 為某些關鍵節點屬性(如標題、描述等)生成一個嵌入向量。
- 向量索引ーー構建節點嵌入的向量相似度索引。
- 最近鄰搜索ーー對于搜索查詢,查找具有大多數相似嵌入的節點。
- 協作調整ーー基于節點的連接,使用 PageRank 等算法傳播和調整相似性得分。
- 邊緣權重ー根據邊緣類型、強度、置信度等進行權重調整。
- 分數標準化ーー將調整后的分數標準化以保持相對排名。
- 結果重新排序ーー基于調整后協作分數的初始結果重新排序。
- 用戶上下文ーー進一步根據用戶配置文件、歷史記錄和首選項進行調整。
圖片
5. 為 RAG 引擎加油——數據飛輪
構建一個不斷改進的高性能檢索增強生成(RAG)系統可能需要實現數據飛輪。知識圖譜通過提供結構化的世界知識為語言模型開啟了新的推理能力。但是,構建高質量的圖譜仍然具有挑戰性。這就是數據飛輪的用武之地,通過分析系統交互,不斷改進知識圖。
記錄所有系統查詢、響應、分數、用戶操作等數據,提供如何使用知識圖表的可視性,使用數據聚合到表面不良響應,聚類并分析這些響應,以識別表明知識差距的模式。人工回顧那些有問題的系統響應,并將問題追溯到圖譜中缺少的或不正確的事實。然后,直接修改圖表以添加那些缺失的事實數據、改進結構、提高清晰度等。不斷循環完成上述步驟,每次迭代都進一步增強知識圖。
像新聞和社交媒體這樣的流媒體實時數據源提供了新信息的不斷流動,以保持知識圖表的最新性。如果使用查詢生成來識別和填補關鍵的知識空白,就超出了流提供的范圍。發現圖譜中的漏洞,提出問題,檢索缺失的事實,然后添加它們。對于每個循環,通過分析使用模式和修復數據問題,知識圖譜會逐漸增強,改進后的圖增強了系統的性能。
這個飛輪過程使得知識圖譜和語言模型能夠基于來自現實世界使用的反饋進行協同演化。圖譜被積極地修改以適應模型的需要。
總之,數據飛輪通過分析系統交互,為知識圖譜的持續、自動改進提供了一個支架。這為依賴于圖表的語言模型的準確性、相關性和適應性提供了動力。
6. 小結
人工智能需要結合外部知識和推理,這就是知識圖譜的用武之地。知識圖譜提供了真實世界實體和關系的結構化表示,編碼了關于世界的事實以及它們之間的聯系。通過遍歷那些相互關聯的事實,這使得復雜的邏輯推理可以跨越多個步驟
然而,知識圖譜有其自身的局限性,如稀疏性和缺乏不確定性處理,這就是圖譜嵌入的幫助所在。通過在向量空間中編碼知識圖譜元素,嵌入允許從大型語料庫到潛在模式表征化的統計學習,還支持高效的基于相似性的操作。
無論是知識圖譜還是向量嵌入本身都不足以形成類人的語言智能,但是,它們共同提供了結構化知識表示、邏輯推理和統計學習的有效結合,而知識圖譜覆蓋了神經網絡模式識別能力之上的符號邏輯和關系,像圖神經網絡這樣的技術通過信息傳遞圖結構和嵌入進一步統一了這些方法。這種共生關系使得系統既能利用統計學習,又能利用符號邏輯,結合了神經網絡和結構化知識表示的優勢。
在構建高質量的知識圖譜、基準測試、噪音處理等仍然存在著挑戰。但是,跨越符號和神經網絡的混合技術仍然是前景光明的。隨著知識圖譜和語言模型的不斷發展,它們的集成將開辟了可解釋AI 的新領域。