大模型RAG架構落地的十大挑戰 原創
0、RAG 簡介
RAG(Retrieval Augmented Generation)結合知識庫檢索與大模型回答,確保信息可靠且精準,同時節省了微調成本。
RAG 流程簡要概括為3步,對應其名:
1、檢索:借助 Embedding,將問題轉化為向量,比對知識庫,選取最相關的 Top K 知識。
2、增強:結合檢索出的上下文和問題,構造 Prompt。
3. 生成:將 Prompt 輸入大模型,產出答案。
從工程視角劃分,RAG 實施分為兩階段:
階段一:離線數據預處理:涵蓋知識文件導入、文本切分、向量構建及數據庫存儲,完成知識的索引構建。
階段二、在線應用推理執行:實時執行信息檢索與大模型內容生成任務,實現交互式問答流程。
1、數據準備階段的挑戰一
挑戰一:文本劃分不當,影響檢索內容的精確度與全面性。?
文本塊的劃分尺寸直接關系到查詢時與用戶提問的貼合度:過小的區塊可能無法涵蓋問題所有相關內容;反之,過大則易引入冗余信息。
當前多種文本切分策略存在,但理想的切分方法需貼合特定領域文檔特性,考慮因素包括文件格式、作者書寫習慣及表述模式等。因此,選取最合適的切塊策略需依據具體情況,并可能針對文檔的不同類別采取定制化處理。核心在于確保分割邏輯遵循語義完整性,以實現內容的有效組織。
2、數據檢索階段的挑戰二
挑戰二:盡管向量檢索作為主流方法依賴于相似度評估,但它亦面臨多方面局限。
1、語義理解偏差:向量表示偶爾難以區分近義概念的細微差異,可能引起誤解。
2、維度考量失衡:如余弦相似度側重向量方向而非其規模,可能導致雖方向相近但在意義層面相去甚遠的匹配。
3、信息粒度不協調:用戶查詢的精確向量可能指向具體信息點,而數據庫條目若是寬泛主題,則檢索結果易過度泛化。
4、上下文匹配不足:現有向量搜索技術偏向整體相似性判斷,可能忽略局部或特定上下文中的更高相似度信息。
5、稀疏數據檢索難:在大規模知識庫中定位關鍵片段尤為困難,特別是當所需信息零散分布于多文檔時,此挑戰更為顯著。
3、數據檢索階段的挑戰三
挑戰三:多個檢索結果排名和優先級不合適,導致大模型的回答沒有抓住重點。
準確評估并排序多個檢索片段對于生成高質量回答極為關鍵,此過程需精密平衡各段落的相關性和重要性。這不僅考驗著排序算法的有效性,還隱含了對領域知識深入理解的需求,以便在信息篩選與排序階段實現智能化決策。
4、大模型生成階段的挑戰四
挑戰四:提升 Prompt 設計以引導大模型依據既有知識庫與提示詞,輸出更佳答案是一項重大任務。
Prompt 創作遠超于問題與檢索材料的直接整合,它要求根據生成模型的獨特性,采取定制化的表述策略與附加指導。為了約束大模型潛在的泛化偏差,確立一個恒定的“角色框架”顯得尤為關鍵,比如:明確指示大模型“扮演該領域的權威學者”,或“僅限于利用提問與關聯素材進行精要概述與總結”,從而在各種情境下維持回答的精準度與相關性。
5、大模型生成階段的挑戰五
挑戰五:確保大模型回應的連貫性與一致性,面臨的信息整合難題尤為突出。
大模型需面對的挑戰在于,整合源自多樣文獻的知識碎片,以及用戶提問中多關鍵詞觸發的多樣化內容。在此基礎上,大模型必須展現出高度的整合能力,使得最終的輸出結果不僅在邏輯鏈條上緊密相連,而且在觀點與事實的呈現上保持高度一致,這一過程對大模型的綜合推理與銜接能力提出了嚴峻考驗。
6、大模型生成階段的挑戰六
挑戰六:大模型如何更好地理解領域知識片段。
各個大模型在掌握特定領域知識及專業術語的深度不一,致使它們在解析檢索到的信息及構造反饋時展現出差異性。縮小這一差距的關鍵,在于實施針對性的微調策略,旨在強化大模型對該領域的語言理解力及內容生成的精準度,從而促進其更深層次地融入與適應專業話語體系。
7、知識準備階段的挑戰七
挑戰七:優化 RAG 的瓶頸:確保高效且可靠的問答對供給。
在追求 RAG 系統性能巔峰的過程中,大量高質量的問答對用作調優數據顯得至關重要。盡管廣泛認同豐富 QA 對的積累能極大促進調優效果,但手動創建這些資源無疑是一項耗時巨大的工程,而依賴自動化生成則可能犧牲內容的可靠性。因此,探索一種既能保證效率又能維護準確性的 QA 對生成機制,成為決定 RAG 系統最終成效的核心挑戰。
8、意圖識別階段的挑戰八
挑戰八:界定合理拒答的微妙平衡。
面對用戶提問,尤其當問題超越了現有文獻資料范疇時,恰當時機的拒答成為一大考驗。應當在無法給予確切信息時勇于說“不知道”,以免提供錯誤引導。實踐中,雖常借助相似度閾值或場景語料庫作為判斷標尺,卻依然難以實現百分之百的精準。過于頻繁的拒答可能導致用戶體驗冷漠,而過度猜測回答又可能損害系統信譽。因此,拿捏拒答的恰當火候,成為維護問答系統信譽與用戶信任的關鍵。
9、多模態 RAG 的挑戰九
挑戰九:多模態的支持是必然趨勢。
在多模態 RAG 的研究中,針對不同的模態,包括:圖像、代碼、結構化知識、音頻和視頻,有不同的檢索和合成程序、目標任務和挑戰。比如:通過圖像檢索擴展文本生成的上下文,利用樣例代碼和相關文檔增強代碼生成等等。
10、RAG 評價的挑戰十
挑戰十:科學衡量 RAG 在特定領域的實用性門檻。
評估 RAG 在某一領域的應用成熟度,類似于采用 RAGAs 評估框架,需獨立提供問題(question)與標準答案(ground_truth),這使得評估結果高度依賴于問題設計的合理性與標準答案的準確性。
此外,評估流程的復雜性—涉及大模型及嵌入模型的性能,進一步要求模型本身的穩定可靠,以及輸入 Prompt 的精確無誤,否則評估指標將失去可信度。因此,確保大模型與 Prompt 的質量,成為驗證 RAG 應用效能的關鍵挑戰。
本文轉載自公眾號玄姐聊AGI 作者:玄姐
原文鏈接:??https://mp.weixin.qq.com/s/yrKYe9chlzkqxVxBpQCoig??
