一種將RAG、KG、VS、TF結合增強領域LLM性能的框架

發布于 2024-10-8 14:59

瀏覽

0收藏

SMART-SLIC框架：旨在將RAG結合向量存儲（Vector Stores）、知識圖譜（Knowledge Graphs）和張量分解（Tensor Factorization）來增強特定領域的大型語言模型（LLMs）的性能。

SMART-SLIC系統框架

一種將RAG、KG、VS、TF結合增強領域LLM性能的框架-AI.x社區

SMART-SLIC框架的關鍵組成部分和操作流程：包括構建特定領域的數據集、知識圖譜本體論、向量存儲以及檢索增強生成（RAG）過程：

A. 特定領域的數據集：

項目從由主題專家（SMEs）選定的核心文檔開始，這些文檔代表了想要構建數據集的特定領域。
利用SCOPUS、Semantic Scholar和OSTI等授權API，通過引用和參考文獻網絡擴展數據集。
為了保持核心數據集的中心質量和主題一致性，采用了幾種修剪策略來刪除與核心文檔無關的文檔。

B. 降維：

通過非負張量分解從數據集中提取潛在結構，使用T-ELF工具進行文檔聚類，并自動確定最佳聚類數量。

C. 知識圖譜本體論：

將T-ELF提取的特征和文檔元數據映射成一系列頭、實體和尾關系，形成方向三元組，然后注入Neo4j知識圖譜。
知識圖譜包含了文檔元數據以及從文檔中提取的潛在特征。

D. 向量存儲組裝：

將文檔向量化后存入Milvus向量數據庫，以支持RAG過程。
文檔的全文被分割成較小的段落，并且每個段落都被賦予一個整數ID，以指示其在原始文檔中的位置。

E. 檢索增強生成RAG：

SMART-SLIC RAG實現：

SMART-SLIC框架中的RAG實現依賴于知識圖譜（KG）和向量存儲（VS）來提供結構化和非結構化的領域特定信息。

當用戶提出問題時，LLM首先將查詢轉化為向量嵌入，然后與現有文本進行比較以找到最相似的文本。

檢索到的信息被添加到原始查詢中，LLM利用這些上下文信息生成相關答案。

最后，LLM以自然語言構建最終答案，向用戶解釋答案。

RAG流程圖

一種將RAG、KG、VS、TF結合增強領域LLM性能的框架-AI.x社區

問題路由流程：?

SMART-SLIC采用問題路由流程來確定用戶查詢的類型，并根據查詢類型選擇相應的處理工具和流程。

問題分為“通用查詢”和“特定文檔查詢”。通用查詢調用ReAct Agent處理流程。

特定文檔查詢則調用檢索查詢或合成查詢。

理解用戶的問題對于將信息路由到適當的工具集和后續流程至關重要。

用戶查詢路由概覽

一種將RAG、KG、VS、TF結合增強領域LLM性能的框架-AI.x社區

ReAct Agent處理流程：?

ReAct Agent處理流程包括ReAct Agent、工具執行器和結束節點。

ReAct Agent負責收集輸入、做出可操作的決策并解釋結果。

工具執行器接收來自代理的工具名稱和輸入參數，調用相應的功能并返回輸出。

結束節點標志著Reason-Act循環的完成，將最終輸出返回給用戶。

ReAct Agent的節點和工具

一種將RAG、KG、VS、TF結合增強領域LLM性能的框架-AI.x社區

SMART-SLIC框架在實際應用中的表現，并提供了評估結果：

A. 數據集：

初始選擇了30篇由主題專家（SME）挑選的、專注于大規模惡意軟件分析和異常檢測領域的文檔作為核心文檔。
通過引用和參考文獻網絡對數據集進行了兩次擴展，最終得到8790篇科學出版物構成的數據集。

B. 潛在特征提取：

使用T-ELF對數據集進行張量分解，確定了25個主題聚類作為所有評估k值中的最佳劃分。
分解過程使用了高性能計算資源，整個過程大約耗時2小時。

一種將RAG、KG、VS、TF結合增強領域LLM性能的框架-AI.x社區

C. 向量存儲：

將8790篇文檔向量化后存入Milvus向量數據庫。
其中22%的文檔有全文文本，這些也被向量化并存入Milvus。

D. 知識圖譜：

從T-ELF輸出的25個聚類中，格式化數據為1,457,534個三元組，并注入知識圖譜。
知識圖譜中包含了321,122個節點和1,136,412條邊關系。

知識圖譜Schema

一種將RAG、KG、VS、TF結合增強領域LLM性能的框架-AI.x社區

關鍵詞“網絡犯罪”的圖形搜索。返回單個關鍵詞（綠色）以及相關聯的文檔（淺藍色）。文檔還鏈接了附屬機構（黃色）和機構所在的國家（紅色）。

一種將RAG、KG、VS、TF結合增強領域LLM性能的框架-AI.x社區

E. 問答驗證：

使用文檔特定問題和主題特定問題對系統進行了零樣本條件下的問答測試。
比較了使用GPT-4-instruct模型在有無RAG框架的情況下的回答性能。
結果顯示，使用RAG時，GPT-4-instruct模型回答問題的準確率達到97%，而沒有使用RAG時，模型有40%的問題未回答，回答的問題準確率僅為20%。

F. 復雜問題解答：

還測試了更復雜的問題，這些問題需要通過各種檢索方法進行徹底搜索。
SME提出了幾個問題，使用SMART-SLIC RAG流程得到的回答與SME選擇的DOI一致，證明了代理在檢索相關來源方面的準確性。
沒有使用RAG時，LLM的回答不準確，存在編造答案的情況，且未提供DOI引用，降低了信息的可信度。?

兩種問題類型，文檔和主題，展示了使用SMART-SLIC RAG和不使用RAG時，LLM的嘗試百分比和正確百分比。

一種將RAG、KG、VS、TF結合增強領域LLM性能的框架-AI.x社區

https://arxiv.org/pdf/2410.02721
Domain-Specific Retrieval-Augmented Generation
Using Vector Stores, Knowledge Graphs, and Tensor Factorization

本文轉載自??PaperAgent??

標簽

RAG

贊

回復

舉報

回復

相關推薦

LLM4CS：一種利用LLM提升多輪會話檢索的效果的方案

arnoldzhw ? 1.1w瀏覽 ? 0回復
通過檢索增強生成(RAG) 增強LLM的實戰演練

51CTO內容精選 ? 3682瀏覽 ? 0回復
利用大語言模型增強網絡抓取：一種現代化的方法

51CTO內容精選 ? 4905瀏覽 ? 0回復
MRAG：一種多頭RAG，提升具有顯著不同內容的多個文檔復雜查詢的檢索準確性

PaperAgent ? 4258瀏覽 ? 0回復
EMNLP 2023 | LLM工業界快速落地之PromptMix: 一種有效的混合數據增強策略將LLM能力遷移到小模型

arnoldzhw ? 3019瀏覽 ? 0回復
介紹一種實用的RAG技術：父文檔檢索（PDR）

51CTO內容精選 ? 2809瀏覽 ? 0回復
15種先進的檢索增強生成（RAG）技術

玄姐聊AGI ? 2798瀏覽 ? 0回復
一種模塊化大模型Agent框架全棧技術綜述

PaperAgent ? 4628瀏覽 ? 0回復
一種支持4種多模態RAG技術的引擎：VARAG

PaperAgent ? 3637瀏覽 ? 0回復
VisRAG：清華大學&面壁智能提出了一種新的RAG思路，效果提升明顯

大語言模型論文跟蹤 ? 2880瀏覽 ? 0回復
15種先進的檢索增強生成（RAG）技術

Halo咯咯 ? 2261瀏覽 ? 0回復
表格場景RAG怎么做？TableRAG：一種增強大規模表格理解框架

大模型自然語言處理 ? 2977瀏覽 ? 0回復
HiQA：一種用于多文檔問答的層次化上下文增強RAG

大模型自然語言處理 ? 2407瀏覽 ? 0回復
微軟發布LLM2CLIP：一種新型AI技術，LLM成為CLIP視覺編碼器的“老師”

Halo咯咯 ? 4086瀏覽 ? 0回復
ACL2024 |解釋引導的大語言模型主動蒸餾：一種優化知識轉移的創新框架 "ELAD"

arnoldzhw ? 3082瀏覽 ? 0回復
一種基于學習的電池壽命預測（Python）

步驚云_32 ? 2756瀏覽 ? 0回復
FlexTok-一種圖像編碼新方式

shizhi02 ? 1843瀏覽 ? 0回復
圖RAG統一框架來了，12種RAG方法一網打盡！

NLP前沿1 ? 2523瀏覽 ? 0回復
基于KG生成語料增強解決RAG問答幻覺問題的簡單框架-Walk&Retrieve

大模型自然語言處理 ? 1191瀏覽 ? 0回復

PaperAgent

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

一種將RAG、KG、VS、TF結合增強領域LLM性能的框架

目錄