成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟新綜述:大模型RAG系統的4層境界! 精華

發布于 2024-9-27 14:01
瀏覽
0收藏

今天分享這篇很干的文章!通過對RAG系統的用戶Query進行難度區分,進而可以將系統劃分為4個等級。


Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely


使用外部數據增強的大型語言模型 ( LLMs ) 在完成現實世界任務方面表現出了卓越的能力。外部數據不僅增強了模型的特定領域專業知識和時間相關性,而且還減少了幻覺的發生率,從而增強了輸出的可控性和可解釋性。將外部數據集成到LLMs中的技術,例如檢索增強生成(RAG)和微調,正在獲得越來越多的關注和廣泛應用。盡管如此,在各個專業領域有效部署數據增強LLMs仍面臨著巨大的挑戰。這些挑戰涵蓋了廣泛的問題,從檢索相關數據和準確解釋用戶意圖到充分利用LLMs的推理能力來完成復雜的任務。我們相信,對于數據增強LLM應用程序來說,沒有一種萬能的解決方案。在實踐中,效果不佳通常是由于未能正確識別任務的核心焦點,或者因為該任務本質上需要混合多種功能,必須將這些功能分解以獲得更好的解決方案。在本次調查中,我們提出了一種 RAG 任務分類方法,根據所需的外部數據類型和任務的主要關注點將用戶查詢分為四個級別:顯式事實查詢、隱式事實查詢、可解釋的基本原理查詢和隱藏的基本原理查詢。我們定義這些級別的查詢,提供相關數據集,并總結關鍵挑戰和應對這些挑戰的最有效技術。最后,我們討論了將外部數據集成到LLMs中的三種主要形式:上下文、小模型和微調,強調了它們各自的優勢、局限性以及它們適合解決的問題類型。本文旨在幫助讀者深入理解和分解構建LLM應用程序的數據需求和關鍵瓶頸,為不同的挑戰提供解決方案,并作為系統開發此類應用程序的指南。

LLMs在各個專業領域較容易遇到一些問題,如模型幻覺、與特定領域知識的不一致等。所以整合特定領域的數據對于滿足特定行業需求是非常重要的。通過RAG和微調等技術,基于RAG的LLM應用在多個方面顯示出比僅基于通用LLM的應用的優勢。

通常,基于RAG的LLM應用可以表述為一個映射過程,即基于給定數據D,將用戶輸入(查詢Q)映射到預期響應(答案A)。

根據與外部數據D的交互程度和所需的認知處理水平,我們可以將查詢分為不同層次。

微軟新綜述:大模型RAG系統的4層境界!-AI.x社區

  1. 顯式事實查詢 (Level-1 Explicit Facts), 最簡單的數據增強查詢形式,示例:
  • "2024年夏季奧運會將在哪里舉行?"(給定一系列關于奧運會的文檔)
  • "公司X的AI戰略是什么?"(給定關于公司X的最新新聞和文章系列)
  1. 隱式事實查詢 (Level-2 Implicit Facts),涉及需要一些常識推理或基本邏輯推理的查詢,示例:
  • "樣本大小大于1000的實驗有多少個?"(給定一系列實驗記錄)
  • "最常提及的前3個癥狀是什么?"(給定一系列醫療記錄)
  • "公司X和公司Y的AI戰略有什么區別?"(給定關于公司X和Y的最新新聞和文章系列)
  1. 解釋性理由查詢 (Level-3 Interpretable Rationales),不僅需要掌握事實內容,還要能夠理解領域數據,示例:
  • "根據胸痛管理指南,應該如何診斷和治療有特定癥狀描述的胸痛患者?"
  • "在現實場景中應如何回應用戶的問題?"(給定客戶服務工作流程)
  1. 隱藏理由查詢 (Level-4 Hidden Rationales),最具挑戰性的查詢類型,需要從外部數據中推斷出未明確記錄的推理規則。
  • "經濟形勢將如何影響公司未來的發展?"(給定一系列財務報告,需要經濟和財務理由)
  • "使用數字5、5、5和1如何得到24點?"(給定一系列24點游戲的示例和相應答案)
  • "阿富汗是否允許父母將其國籍傳給在國外出生的孩子?"(給定GLOBALCIT公民法數據集)

上述文字對應了下圖

微軟新綜述:大模型RAG系統的4層境界!-AI.x社區

L1 顯式事實查詢

挑戰:

  • 外部數據通常是高度非結構化的,并且包含多模態組件,如表格、圖像、視頻等。此外,將這些數據分割或“塊化”處理時,保持原始上下文和意義是一個挑戰。
  • 數據檢索困難:從大型非結構化數據集中檢索相關數據段可能計算密集且容易出錯。
  • 評估困難:評估RAG系統(特別是組件級別)的性能是一項復雜任務,需要開發能夠準確評估數據檢索和響應生成質量的健壯指標。

解決方案:(介紹了非常多的高級RAG技巧)

  • 多模態文檔解析 (表格轉文本、圖片/視頻內容轉換成文本)
  • 塊大小優化:固定大小、文檔結構遞歸切分、滑動窗口、基于語義
  • 索引:bm25、香蓮、hybird
  • query、doc 文檔對齊:傳統對齊,hyde文檔域對齊,query域對齊

微軟新綜述:大模型RAG系統的4層境界!-AI.x社區

  • rerank修正:rerank
  • 遞歸檢索,迭代解鎖:通過多次檢索來逐步解決查詢中的不明確問題。
  • 生成:確定檢索到的信息是否足夠,或者是否需要額外的外部數據;處理檢索到的知識與模型內部先驗知識之間的沖突。
  • 微調:通過設計訓練數據來提高RAG系統在生成響應時的性能。

微軟新綜述:大模型RAG系統的4層境界!-AI.x社區

  • 聯合訓練:在訓練階段同時訓練檢索器和生成器,以提高兩者在RAG系統中的協同性能。

L2 隱式事實查詢

挑戰:

  • 自適應:不同問題可能需要不同數量的檢索上下文。固定數量的檢索可能導致信息噪聲過多或信息不足。
  • 推理檢索間的協調:推理可以指導需要檢索的內容,而檢索到的信息又可以迭代地細化推理策略。

解決方案:

  • 迭代RAG:通過多步驟RAG過程動態控制,迭代地收集或糾正信息,直到達到正確答案。
  • 基于圖/樹的RAG:使用圖或樹結構來自然地表達文本之間的關系,適合處理需要綜合多參考信息的查詢。
  • NL2SQL:當處理結構化數據時,將自然語言查詢轉換為SQL查詢可以有效地檢索信息。

剩下2種不做更多介紹了,有點扯遠了,一張圖表示如下:

微軟新綜述:大模型RAG系統的4層境界!-AI.x社區

本文轉載自 ??探索AGI??,作者: 獼猴桃

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美激情欧美激情在线五月 | 欧美理论片在线观看 | 精品国产乱码久久久久久闺蜜 | 逼逼视频 | 欧美午夜精品久久久久免费视 | 伊人久久成人 | 国产免费一区 | 亚洲免费在线观看 | 欧美一级电影免费观看 | 91麻豆精品一区二区三区 | 在线 丝袜 欧美 日韩 制服 | 亚洲 精品 综合 精品 自拍 | 日本一道本视频 | 三区在线 | 欧美日韩在线一区二区 | 一级片免费在线观看 | 福利视频1000| 久久大陆| 精品国产一区二区三区久久狼黑人 | 黄色三级在线播放 | 精品一区二区三区不卡 | 欧州一区二区三区 | 亚洲免费视频播放 | 理论片87福利理论电影 | a级在线免费 | wwwxxx日本在线观看 | 欧美精品一区在线 | 欧美日韩在线免费 | 久草视频在线播放 | 国产在视频一区二区三区吞精 | 黄色毛片在线看 | 成人三级视频 | 国产成人jvid在线播放 | 午夜一区二区三区在线观看 | 91av导航| 五月婷六月丁香 | 一区二区三区视频在线观看 | 午夜资源 | 中文字幕一二三区 | 91精品久久久久久久久中文字幕 | 日韩久久精品电影 |