成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!

發布于 2024-8-7 15:38
瀏覽
0收藏

企業落地RAG系統痛點:

  • 技術公司維護著大量的專有文檔,如培訓材料、設計文檔和研究成果。
  • 工程師,尤其是新員工,需要快速查詢這些文檔或吸收其中的新知識。
  • 這些領域特定的文檔通常包含許多技術社區特有的縮寫和術語,使得導航變得復雜。

Golden-Retriever系統:在文檔檢索前增加了一個基于反思的問題增強步驟,用于識別術語、根據上下文澄清其含義,并相應地增強問題。

一個比較Golden-Retriever與相關工作的示意圖。兩種類型的方法:離線和在線。在左上角,現有的離線方法使用大型語言模型(LLMs)生成訓練數據集。右上角展示了Golden-Retriever離線方法,利用LLMs增強文檔數據庫,為在線階段做準備。在線方法在圖的下半部分描繪。從左下到右下:Corrective RAG和Self-RAG在文檔檢索步驟后修改RAG的響應。如果用戶的問題含糊不清或缺乏上下文,RAG無法檢索到最相關的文檔,限制了這些方法的有效性。另一種方法將問題解構為抽象語法樹(AST),并相應地合成SQL查詢,提高了查詢的保真度,但僅適用于SQL查詢。Golden-Retriever的方法反思問題,識別其上下文,并在文檔檢索之前通過查詢術語字典來增強問題。增強后的問題允許RAG忠實地檢索最相關的文檔,即使存在含糊的術語或缺乏明確的上下文。

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區圖片


Golden-Retriever的組成:包含離線(offline)和在線(online)兩個部分。

  • 離線部分是數據預處理步驟,發生在知識庫聊天機器人部署之前。
  • 在線部分是每次用戶提問時發生的交互過程。

離線文檔增強(LLM-Driven Document Augmentation)

  • 目的:增強文檔數據庫,提高檢索文檔的相關性。
  • 過程:收集公司原始文檔,使用OCR技術提取文本,并將其分割成較小的塊,以便處理。
  • 增強:使用大型語言模型(LLM)為每個文本塊生成摘要,從而利用LLM的語義理解和上下文學習能力。

文檔預處理和LLM驅動的文檔增強過程的示例提示實施的插圖

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區

在線過程(online):每次用戶提問時,系統通過LLM識別問題中的術語和上下文,查詢術語字典,然后增強原始問題,以便RAG框架檢索最相關和準確的文檔。

  1. 在線過程:

1.1 識別術語(Identify Jargons):識別用戶問題中的術語和縮寫,為確保準確解釋,使用LLM提取并列出所有潛在的術語和縮寫。

1.2 確定上下文(Identify Context):確定問題中術語的上下文,使用LLM通過提示模板來識別問題上下文。

1.3 查詢術語(Query Jargons):使用已識別的術語查詢術語字典,獲取擴展定義、描述和注釋。

1.4 增強問題(Augment Question):結合原始問題、上下文信息和詳細的術語定義,形成增強后的問題,以提供清晰的上下文并解決任何歧義。

1.5 查詢未命中響應(Query Miss Response):如果系統在字典中找不到某些術語的相關信息,Golden-Retriever有一個備選機制,合成一個響應,指示由于缺少信息而無法回答問題。

左側是Golden-Retriever在線推理部分的工作流程圖。右側是系統與LLM在工作流程中間步驟的示例交互。系統提示LLM生成中間響應,這些響應被保存、訪問,并用于工作流程中后續的步驟。

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區

通過在特定領域的問答數據集上的評估,Golden-Retriever在多個開源LLM上表現出色,與傳統的RAG方法相比,顯著提高了答案的準確性。與Vanilla LLM和RAG相比,Golden-Retriever分別將Meta-Llama-3-70B的總分提高了79.2%和40.7%。在測試的所有三種大型語言模型中,平均將得分提高了57.3%。

與傳統的LLM微調方法相比,Golden-Retriever避免了計算成本高、泛化能力差和容量限制等問題。

問答實驗結果。使用針對工程師新員工培訓文檔中的六個不同領域的測驗作為測試問題。所有問題都是多項選擇題。顯示的是五次試驗的平均得分。最佳得分用粗體顯示。

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區

縮寫識別實驗的結果表明,Golden-Retriever系統中使用的LLM能夠有效地識別問題中的縮寫,這對于提高問題解答的準確性至關重要。

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區


附錄

QA對示例

展示了一些用于問題回答實驗的評估數據的非保密實例,如下所示:

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區

合成數據集生成模板 

以下是用于生成縮寫識別實驗中隨機縮寫的問題模板和隨機縮寫列表。

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區

樣本實驗結果 

在這里,展示了縮寫識別實驗的樣本實驗結果。強調展示失敗模式,這些模式在不同的大型語言模型(LLMs)中是不同的。

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區

Agentic RAG Golden-Retriever:顯著提升企業知識庫問答準確性、檢索效率!-AI.x社區

https://arxiv.org/pdf/2408.00798
Golden-Retriever: High-Fidelity Agentic Retrieval Augmented Generation for Industrial Knowledge Base

本文轉載自??PaperAgent??,作者:PaperAgent

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 毛片一区二区三区 | 情侣黄网站免费看 | 日韩福利在线观看 | 亚洲国产精品99久久久久久久久 | 久久一级大片 | 夜夜骑天天干 | 一区二区在线 | 伊人久久综合 | 天天做日日做 | av在线免费观看不卡 | 91av视频| 亚洲精品一区二区三区蜜桃久 | 国产我和子的乱视频网站 | 可以在线看的黄色网址 | 91久久精品一区二区二区 | 成人精品一区亚洲午夜久久久 | 久久久看| 国产精品久久亚洲 | 男女视频91 | 精品香蕉一区二区三区 | 成人午夜网 | 最近日韩中文字幕 | 99riav国产一区二区三区 | 欧美日韩久久精品 | av黄色免费 | 亚洲精彩视频 | www国产成人免费观看视频 | 黄色大片免费网站 | 中文字幕中文字幕 | 欧美精品网 | 成人做爰69片免费观看 | 色综合一区二区 | 亚洲一区二区三区 | www日本在线播放 | 亚洲三级在线观看 | 欧美性影院 | 亚洲精久久 | 日p视频免费看 | 99精品欧美一区二区三区 | 久久久国产一区二区三区四区小说 | 男女羞羞视频大全 |