螞蟻自研知識增強大模型服務框架KAG，可顯著提升知識推理準確率

作者：機器之心 2024-09-12 13:50:00

近期，螞蟻將發布 KAG 的整體技術報告。我們希望真正融合知識圖譜的符號計算和向量檢索的優勢，因為它們在很多方面是互補的。

近日，在 2024 Inclusion?外灘大會 “超越平面思維，圖計算讓 AI 洞悉復雜世界” 見解論壇上，螞蟻集團知識圖譜負責人梁磊分享了 “構建知識增強的專業智能體” 相關工作，并帶來了知識圖譜與大模型結合最新研發成果 —— 知識增強大模型服務框架 KAG。

梁磊介紹，專業領域增強大模型服務框架 KAG 通過圖譜邏輯符號引導決策和檢索，顯著提升了垂直領域決策的精準性和邏輯嚴謹性；通過信息檢索可補全知識圖譜的稀疏性和知識覆蓋的不足，同時充分利用大語言模型的理解和生成能力降低領域知識圖譜的構造門檻。KAG 框架在垂直領域的適用性得到了有效驗證。比如，支付寶最新推出的 AI 原生 App “支小寶” 采用這套框架，在政務問答場景的準確率提升到了 91%，醫療問答垂直的指標解讀準確率可達 90% 以上。梁磊還透露，KAG 框架會進一步向社區開放，并在開源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支持，也歡迎社區共建。

以下是梁磊在外灘大會上的演講內容摘要，機器之心做了不改變原意的整理。

1、可信是大語言模型真正落地應用的前提

大語言模型有著很好的理解和生成能力，在垂直領域的應用有巨大的機會，但同時也存在著非常大的挑戰。比如在垂直領域跟專家經驗、一些具體業務結合的時候，依然存在著不懂領域知識、做不了復雜決策、不可靠等問題。

首先，大語言模型本身不具備比較嚴謹的思考能力。在一些測試中，我們讓大語言模型做復雜問題的拆解，問兩部電影之間的共同主演是誰，結果顯示總體上回復的準確性和一致性相對較低，甚至還有一些拆解錯誤。這種情況下，大語言模型很難嚴格遵從人類的指令。此外，大語言模型還存在事實性不足的問題。今年以來行業嘗試把 RAG、搜索引擎之類的技術引入到大語言模型，來補充事實性不足的問題，以及 GraphRAG，用圖的方式去重新組織它的檢索。但問題是，即便引入了一些外部知識庫，把一些垂直領域的知識庫和事實文檔給到語言模型，模型也不見得能夠完全生成一個準確的答案。

除此以外，大模型在外部知識庫召回的時候，也依然會存在召回不準的問題。舉個基于向量計算的 RAG 的例子。比如問 “怎么查找我的養老金”，常見的有兩種做法，一種是直接基于向量計算去召回文檔，但是往往和業務專家定義的知識不相關。但在垂直領域，有很多知識在字面上不相似，但卻是很相關的。比如政策明確規定了五險一金的范圍，大模型不能對這些內容做胡亂生成，這就必須有一些預定義的領域知識和預定義的知識結構，來約束大模型的行為，甚至給它提供一個更有效的知識注入，而這些都是模型在文本上不相似，但卻是強相關的。在這種情況下，今年討論引入知識圖譜技術的也越來越多。通過知識圖譜的語義相關性來提升模型內容的相關性，以此可以做更好的語義計算和語義的召回。

大模型幻覺也是阻礙應用的關鍵挑戰之一。那么，引入了 RAG、知識庫之后，大模型就能解決幻覺問題了嗎？其實不然，而且有些幻覺問題不仔細觀察便難以察覺。舉個例子，比如原文提到功能飲料中的維生素、礦物質等，對運動后補充身體營養、消除疲勞具有一定作用，而大模型重新生成以后，可能會改寫成對于增加疲勞有一定作用。這種其實就會給一個錯誤的引導，但這種錯誤的引導，尤其是大模型生成的文案可能是幾百字，甚至上千字的，這時候就很難從里面觀察到這類細節問題。通過測評發現，大語言模型即便是加入 RAG 以后，依然有大概 30% 到 40% 的幻覺率。

在真實業務決策場景，挑戰就更多了。以金融場景為例，無論是研報生成，還是醫療問診等等，業務上都有比較嚴格的問題規劃、信息獲取、決策建議，甚至生成和反饋的過程。也就是說，因為大語言模型還是要為人類服務，應用在一個個垂直業務場景，每一類都需要準確的決策過程，如果這個決策過程不能得到很好的控制的話，就很難真正意義上用在垂直領域。在專業性的知識服務場景，大語言模型服務的首要前提是知識精準。這就包括知識的邊界是完備的，知識的結構及語義清晰、邏輯嚴謹。另外，在垂直領域落地，也一定要對時間、數字和邏輯敏感，無論讓它做多跳推理，還是邏輯規則數字計算，而這些恰好是大語言模型所不擅長的，包括前一段時間熱議的 9.9 和 9.12 比大小的例子。

基于此，我們認為在垂直領域落地的時候，大語言模型一定確保專業和可信。可信是大語言模型真正意義上落地的前提。如果不能保證可信，我們可能不會迎來真正意義上的 AGI 的變革。這也是螞蟻為什么要做知識增強的重要原因。

2、KAG：專業領域知識增強大模型服務框架

應對大模型在真實應用場景遇到的挑戰，螞蟻研發了基于知識增強在垂直領域的可控生成框架 KAG。

KAG 可控生成框架是基于開源系統 OpenSPG 升級，并且結合了螞蟻自研的圖數據庫 TuGraph-DB 的能力。TuGraph-DB 作為 KAG 中知識圖譜 SPG 的底層圖引擎，為 KAG 提供了高效的知識存儲與檢索能力。KAG 將抽取的知識存儲于 SPG 中，由 TuGraph-DB 提供圖存儲；在檢索流程中，SPG 通過 TuGraph-DB 的 Cypher 接口檢索與用戶提問相關的知識信息，并將結果反饋給大模型生成回答。

KAG 框架針對大語言模型和圖譜的結合做了五方面的增強：分別是知識表示的增強、圖結構與文本互索引、符號引導的拆解和推理、基于概念的知識對齊、KAG Model。具體包括以下關鍵能力：

1） KAG: LLMs 友好的知識表示

今年，我們對語義表示進行了升級，旨在進一步發展 OpenSPG 項目，推動知識圖譜從靜態二元結構向多元動態結構持續升級。通過原始文本增強深度上下文感知，我們實現了更豐富的可解釋文本的知識關聯，對大語言模型也更友好，同時，參考 DIKW 層次范式在同一實體空間中支持 Schema 約束、無模式建模及文本結構的分層表示。

同時，我們探討了 GraphRAG 范式的兩種主要實現：微軟的 GraphRAG 和 HippoRAG。盡管微軟的 GraphRAG 在摘要生成類任務上有不錯表現，但在事實問答準確率上表現不佳。而 HippoRAG 通過圖結構構建倒排索引，顯著提升了文檔召回的相關性和事實問答的準確性。我們的目標是在專業領域內實現準確的事實性回答和報告生成，融合不同層級知識創建從嚴格到寬松的決策范式。

2）互索引：結構化知識與文本數據互索引結構

我們將原有的 term-based 倒排索引升級為 graph-based 倒排索引，通過開放信息抽取獲取原始文檔中的關鍵元素和描述性信息，進行有效的語義切分，最終形成一個包含業務實體、通用概念知識和文本塊的圖結構。這種結構不僅便于遍歷和檢索文本塊，還能有效分析文檔間的關聯。

3）混合推理：符號決策、向量檢索與大模型混合推理

我們在 KAG 中構建了一個混合推理引擎，旨在解決知識圖譜在嚴謹決策中的應用問題。目標是開發一套技術范式，支持復雜推理決策的執行，同時通過信息檢索來彌補知識圖譜的不足。

該框架采用符號驅動的方法生成邏輯可執行的查詢表達式（Logic form Query）。通過圖結構操作，利用分層知識進行決策：先在邏輯知識層檢索，若無解則轉向開放信息層，再通過關聯文檔檢索提高召回率和準確性。在生成階段，我們應用 query-focused summary 方法，以通過查詢結構提取答案，解決傳統知識圖譜與用戶查詢的粒度匹配問題。同時，基于知識圖譜的反饋有助于抑制語言模型生成中的幻覺，提高準確性。系統將問題拆解為邏輯符號表達，可轉化為 KGDSL 或 GQL。我們的兩階段規劃包含圖譜存儲中的精確匹配和 SPO 子圖檢索，最后集成知識圖譜以減輕幻覺。通過文本抽取的三元組注入語言模型，在生成時遵循結構范式，有效降低幻覺率。這種方法在內部業務中如區域風險報告生成中已顯著改善，我們將繼續深入探索這一方向。

4）語義對齊：平衡信息檢索與專業決策

問題的關鍵在于如何有效整合信息檢索和專業決策。信息檢索允許一定的錯誤率，而專業決策對準確性要求則是嚴格的。因此，我們通過開放信息抽取構建結構化知識，并應用 schema 約束以提升決策的嚴謹性。此外，基于概念的語義對齊讓我們能兼顧這兩者，形成一個基于 SPG 的領域知識圖譜，從而改善信息檢索和專業決策的能力。

我們通過傳統圖譜方法，如實體鏈接和概念分層等，提升了圖結構的稠密性和語義完備性。借助與浙江大學的 OpenKG 合作，推進 OneGraph 項目，我們致力于通過增強知識對齊能力，降低構建成本。同時，在垂直領域的探索中，例如醫療和法律術語的應用，我們優化了開放抽取的效率，顯著提升了與領域知識的對齊準確性。我們的框架在通用數據集上較現有 SOTA 的 F1 提高了 10-20 個百分點，并在實際應用中，比如政務和醫療問答場景，取得了顯著的精度提升，表明其在專業決策中的有效性。

5） KAG 模型：定義 LLMs 與 KGs 之間的協同任務

KAG 模型旨在降低大型語言模型（LLMs）與知識圖譜（KGs）結合的成本，利用指令合成技術使較小模型在性能上接近更大模型。我們對 LLMs 和 KGs 的能力進行對齊，強調自然語言理解、推理和生成能力，確保從文本中提取結構化信息并提升知識融合效率。結構化、語義化的知識圖譜和原始文檔之間形成了良好的雙向映射，從文本到圖譜則是刻畫文本內的關鍵信息和符號結構，從圖譜到文本則是描述文本生成中所必須滿足的知識和邏輯約束。

為構建知識圖譜，我們注重知識點的文本可解釋性，要求附帶描述信息、關聯原始文本段，避免僅只有原始詞條。知識圖譜的結構化特性有助于生成高質量指令，通過邏輯拆解和語義關系合成提升大語言模型的自然語言理解和推理能力。此外，指令的合成和語義對齊使小參數量模型達到接近或超越更大參數模型的效果，同時大幅提升性能。實踐中發現圖譜指令合成微調后的小模型在概念補全、信息抽取等圖譜專用任務上的準確率均高于更大參數模型。

3. KAG 在垂直領域的典型應用

今年以來，我們在業務應用中不斷完善 KAG 框架。在支付寶 AI 生活管家 “支小寶” 的熱點事件功能、政務民生場景，以及研報生成類任務，KAG 都能夠生成邏輯上更為準確的內容。此外，支付寶今年在政務辦事和醫療健康兩個重要功能升級中也應用了知識圖譜技術。例如，“去醫院針灸能否報銷？” 這一問題包含了特定條件，而帶有條件的檢索是傳統搜索引擎或向量計算所不具備的功能。通過知識圖譜的方式，我們可以更有效地找到相關知識并生成更加完備的回答。

近期，螞蟻將發布 KAG 的整體技術報告。我們希望真正融合知識圖譜的符號計算和向量檢索的優勢，因為它們在很多方面是互補的。同時，利用大型語言模型的理解和生成能力，構建一個知識增強的大語言模型生成系統。

在這個過程中，我們首先需要解決的是垂直領域應用的問題。系統既能進行復雜的符號決策，又能在復雜符號決策無法滿足需求時，通過向量檢索進行補充。在框架的后續版本中，我們將提供一些用戶可調的參數。這意味著，如果用戶對準確率有極高要求，可以減少基于信息檢索生成的內容；如果對準確率有一定容忍度，則可以適當放寬標準。這為用戶提供了一個可調節的垂直領域解決方案。因為并不是所有垂直領域應用場景都要求絕對的準確率，而是存在一定的容忍范圍。因此，我們可以為用戶提供更多的動態選擇。

除了上述工作，為加速知識圖譜與大語言模型的雙向融通，螞蟻集團也和浙江大學成立了知識圖譜聯合實驗室。聯合實驗室已發布了大模型抽取框架 OneKE，下一步還將構建增強語言模型的 OneGraph。

后記：在 2024Inclusion?外灘大會 “超越平面思維，圖計算讓 AI 洞悉復雜世界” 見解論壇上，美國伊利諾伊大學芝加哥分校計算機科學與技術系特聘教授俞士綸、國際關聯數據基準委員會（LDBC）副主席 Alastair Green、中國人壽財產保險有限公司人工智能開發團隊負責人孔宇飛、螞蟻數字科技 AI 技術負責人章鵬、螞蟻集團圖計算解決方案架構師崔安頎等嘉賓也帶來了精彩分享，更多觀點可點擊閱讀原文查看。

責任編輯：張燕妮來源：機器之心

模型訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

螞蟻自研知識增強大模型服務框架KAG，可顯著提升知識推理準確率

1、可信是大語言模型真正落地應用的前提

2、KAG：專業領域知識增強大模型服務框架

3. KAG 在垂直領域的典型應用