深度解析大模型技術演進脈絡:RAG、Agent與多模態的實戰經驗與未來圖景
作者 | jaymie
大模型作為產業變革的核心引擎。通過RAG、Agent與多模態技術正在重塑AI與現實的交互邊界。三者協同演進,不僅攻克了數據時效性、專業適配等核心挑戰,更推動行業從效率革新邁向業務重構。本文將解析技術演進脈絡、實戰經驗與未來圖景,為讀者提供前沿趨勢的全局視角與產業升級的實踐指引。
大模型技術正加速滲透至產業核心場景,成為驅動數字化轉型的智能引擎。全球機器學習大會(ML-Summit)聚焦大模型技術的創新突破與產業實踐,深入探討其前沿方向與落地路徑。作為AI發展的核心驅動力:
- 檢索增強生成(RAG)通過動態知識融合技術突破大模型的靜態知識邊界;
- 智能體(Agent)借助自主決策與多任務協同能力重構人機協作范式;
- 多模態大模型則依托跨模態語義理解技術解鎖復雜場景的落地潛力。
三者協同演進,不僅攻克了數據時效性、隱私安全與專業適配等關鍵難題,更在醫療診斷、金融風控、智能制造等領域催生從效率革新到業務重構的行業級變革。
ML-Summit會議大模型內容分布
- RAG:大模型的動態知識引擎,解決模型靜態知識邊界、時效性與可信度問題。
- Agent:大模型的智能執行中樞,賦予模型自主規劃、決策與工具調用能力。
- 多模態:大模型的感知升級底座,突破單一模態理解限制,實現真實世界全息認知。
知識增強(RAG)→ 行為智能(Agent)→ 感知升級(多模態)→ 完整智能體
一、RAG:大模型觸手
RAG(Retrieval-Augmented Generation,檢索增強生成) 是一種結合信息檢索與生成模型的技術。其核心思想是:在生成答案前,先從外部知識庫(如文檔、數據庫、互聯網)中檢索相關證據,再基于檢索結果和用戶輸入生成更準確、可靠的回答。如下圖所示為一個最簡RAG示意圖。
從形態上說,LLM充當大腦角色用于生成答案,檢索充當觸手角色用于收集證據。RAG就是一個帶觸手(外掛知識庫)的大模型系統。
1. 為什么需要RAG
大模型在很多領域表現出色,但依然存在局限性,這些局限性使得RAG成為大模型的重要補充。
模型能力:大模型訓練完成后模型的能力就固定了。比如:我們問ChatGPT東方甄選小作文的事情,ChatGPT表示不知道。
原因是:GPT-4訓練數據知識收集截止到2023年10月份。RAG通過外掛實時知識庫,可以有效改善這類問題。
ChatGPT時效性
- 數據隱私:大模型很難覆蓋隱私數據和私域數據,本地部署RAG系統,也可以改善此類問題。
- 可解析性:RAG檢索結果提供事實依據,減少猜測性回答。同時生成答案可標注來源文檔,增強可信度。
- 成本優化:長上下文模型,處理全文輸入成本高,RAG檢索關鍵片段壓縮輸入長度,使得RAG在處理長文本時更加效。
LLM與RAG差異
RAG不僅解決大模型的局限性,也帶來更高的生成質量和成本優化,RAG可以根據不同領域的需求,定制化地提供專業答案。
2. RAG存在挑戰
盡管RAG帶來了許多優勢,但在實際應用中面臨一些挑戰,特別是在RAG構建過程中。RAG構建包含4個主要步驟:文檔轉為數據、數據分塊、數據向量化、向量存儲。
(1) 文本向量化難點
文檔以文字為主,也包含圖片、表格、公式等信息。文檔中存在成千上百萬的文字信息,大量數據后如何對數據分塊(涉及權衡文本顆粒度、上下文的完整性)選擇適合的文本顆粒度(數據分塊)能夠平衡檢索的精準和召回。
RAG構建過程中存在的挑戰
(2) 多模態文檔難點
多模態文檔中圖片、圖表等結構化多模態內容處理方式更加復雜。如何將不同模態的數據(文本,圖像、視頻)融合在一起,提高理解的準確性是挑戰。
多模態文檔結構復雜(注:圖源網絡)
目前針對復雜文檔結構處理鏈路包含四個階段:文檔解析器(ocr識別及坐標、圖片識別及坐標、工具解析器等)、文檔結構化(為數據建立索引順序)、文檔理解(數據整理為可序列化的結構)。整體看文檔的解析鏈路長,步驟多,內容不好校核。
復雜文檔常規解析鏈路(注:圖源網絡)
(3) 可控檢索難點
檢索錯誤是RAG應用中的一個常見問題,比如:噪聲數據、數據分塊(上下文錯誤處理)、特性向量化過程(BGE能力不足)等等。召回率與精準率是一個對立矛盾體。因此需要對RAG系統做可控處理。
RAG可控處理一種思路
3. RAG發展
因多模態數據處理與向量化檢索的技術瓶頸,RAG系統的穩定性常受制約,因此推動多模態文檔的統一化處理范式與新一代檢索架構,成為突破RAG能力邊界的兩大關鍵路徑。
(1) 多模態文檔處理
在視覺問答(VAQ)任務中,多模態文檔的解析需融合文本與布局理解能力。例如,當解析“兩個品牌在分辨率參數上的差異”時,模型不僅需識別圖像中的文字內容,還需解析文本間的排版邏輯與表格結構信息。若要在回答時提升準確性,需確保模型在處理文本時保留其原始結構特征。
多模態模型提取文字及視覺問答
多模態處理文檔不僅可以將不同模態的數據(文本、圖像、表格)映射到同一個語義空間,進而提高數據的可用性和檢索效率,也有利于模型對于文檔的理解。
(2) 基于記憶驅動RAG
RAG的另一個發展方向是記憶驅動RAG。與傳統的基于向量的RAG相比,記憶驅動RAG利用LLM的KV緩存作為動態索引,具備更高的靈活性和適應性。如圖所示Standard RAG與Meno RAG在原理及使用方式存在明顯區別。
向量RAG與Meno RAG的差異
使用場景:若需求為靜態知識快速檢索(如客服標準問答),優先選擇向量RAG;BGE(智源通用嵌入模型)、Jina Embeddings(長文本優化)。若需求為動態交互與終身學習(如個性化醫療助手),探索記憶驅動RAG Memo RAG(智源研究院):KV緩存壓縮 + 動態記憶索引。
當RAG賦予大模型動態知識觸手后,如何讓模型自主運用這些知識解決問題成為關鍵。這引出了AI技術演進的下一階段——具備自主決策與執行能力的Agent系統。
二、Agent:大模型集成體
Agent技術是大模型的重要集成體,能夠實現自主執行任務、做出決策和與環境互動。如圖所示,海綿寶寶的形象展示一個大模型如何一步步進化為一個超強的智能體。
(注:圖源網絡)
1. Agent概要
AI agent是指使用 AI 技術設計和編程的一種計算機程序,其可以獨立地進行某些任務并對環境做出反應。AI代理可以被視為一個智能體,它能夠感知其環境,自己決策和行動來改變環境。如圖所示是一個最簡Agent系統圖。
Agent系統圖
Agent通過結合LLM、規劃、反饋和工具,形成一個完整的智能系統。Agent包含感知層、決策層、執行層,最終形成具有自主性、反應性、主動性和社會性。
2. Agent實踐
已有不少Agent開源項目,通過項目實踐可加深對Agent理解。Agent實踐分為兩種類型:自主智能體和生成智能體。
(1) 自主智能與生成智能
自主智能體:自主執行任務、做出決策和與環境互動的智能系統。生成智能體:利用生成模型來創造新的數據或內容的智能系統。如圖所示,Auto-GPT(自主智能)自問自答,斯坦福小鎮虛擬世界(生成智能)。
自主智能體與生成智能體的區別:
(2) Agent核心框架
成熟的Agent框架可降低開發成本,MetaGPT和AutoGen是當前最流行的兩個框架。MetaGPT通過為GPT模型分配不同角色來模擬協作的軟件公司結構,以處理復雜任務;AutoGen作為開源框架,專注于通過多智能體對話和增強的LLM推理開發大型語言模型應用。
MetaGPT與AutoGen對比
MetaGPT和AutoGen各有特點,MetaGPT:軟件公司的“數字CTO”;AutoGen:定制化AI的“樂高工廠。MetaGPT更適合需要全面自動化和協作的軟件開發任務,而AutoGen更適合需要靈活定制和對話的LLM應用開發。
(3) Multi-Agent系統
現實世界任務往往過于復雜,單Agent難以勝任,需要多個Agent協作。以漫畫圖所示,從一個需求到最終交付的產品。首先:計劃、需求分析、框架設計、系統方案、編碼實現、功能性測試,最后是產品交付。如此復雜的系統需要多人合作,Multi-Agent系統在處理復雜任務方面具有顯著優勢。
單智能體與多智能體,無論在任務類型與核心技術都存在明顯差別。
單智能體與多智能體對比
任務解構能力:通過分布式子任務分工協作,Multi-Agent系統能夠分解任務,提高了任務處理的效率。
效能突破邊界:通過并行架構和冗余容錯設計,Multi-Agent系統能夠顯著提高計算效率和系統魯棒性。 3.動態環境適應:通過實時交互網絡,Multi-Agent系統能夠快速適應動態環境,更好地應對復雜變化環境。
3. Agent應用
盡管Agent技術在多個領域展示了其強大的應用價值,但我們也面臨一些挑戰。
(1) 應用難點
如圖所示顯示各方面的挑戰,如:技術能力、系統設計、安全性及經濟效益。
應對上述問題存在的方案:復雜任務規劃,通過分層的方式逐步解決復雜任務。
- 動態環境適應:元學習(Meta-Learning)+ 世界模型可以提高Agent在動態環境中的適應能力。
- 多智能體協作:通過博弈論和聯邦學習,多智能體系統實現高效的協作。
- 可解釋性提升:因果推理模型 + 決策樹蒸餾可以提高Agent的可解釋性,Agent的決策過程更加透明。
- 價值觀對齊:基于人類反饋的強化學習(RLHF)可以解決Agent的價值觀對齊問題。
(2) 行業應用
Agent技術在多個領域展示了其強大的應用價值。
Agent行業應用效果
Agent的落地應用始終面臨真實世界的復雜性挑戰。要處理工業質檢中的視覺缺陷檢測、金融報告中的圖表解析等任務,必須突破單模態限制——這正是多模態大模型的技術使命。
三、多模態技術應用
多模態大模型的應用非常廣泛,涵蓋了多個行業和領域。本文分享三個團隊的工作,紫東太初多模態預訓練、360團隊多模態世界目標檢測、騰訊團隊視頻號多模態審核。
1. 紫東太初--多模態任務統一
將目標檢測、分割、OCR等傳統CV任務統一到圖文大模型中是紫東太初項目中的核心技術之一。使用LLM的自回歸統一編碼預測,在統一表達的同時,顯式增強了圖文大模型的局部感知能力。
任務設計:為了加強多模態大模型視覺局部理解能力,在MLLM回歸任務中統一傳統CV任務,數據集新增了900k條 包含box,mask,細粒度標準的定位數據。不同的多模態任務通過指令跟隨實現,比如指代檢測、指代分割等。
CV與文本任務統一
訓練策略:第一階段使用圖文數據對,實現模型跨模態間對齊;第二階段,使用多模態指代任務以及一系列細粒度任務,增強模型數據能力。第三階段,運用強化學習,讓模型更好跟隨用戶指令,明白使用意圖。
不同階段訓練策略
模型效果:訓練多模態大模型不僅有優秀的通用能力,也擁有視覺定位功能。視覺Grounding任務超越同期最優定位優化模型CogVLM-17B首次在目標檢測、開放目標計數任務上精度超越多個目標檢測、目標計數專有模型。
2. 360研究院--開放世界目標檢測
360研究院的開放世界目標檢測技術,已廣泛應用于智能硬件、自動駕駛等領域。傳統小模型因泛化能力不足難以應對開放場景的檢測需求,而該任務恰恰是多模態大模型構建通用感知能力的關鍵環節。檢測能力為何成為多模態大模型的必備屬性?其必要性主要體現在以下四方面:
盡管目標檢測能夠幫助多模態大模型提升能力,但在實際應用中也面臨一些挑戰。首先是數據獲取與標注瓶頸,未知類別數據稀缺。其次是數據分布復雜性挑戰,長尾類別識別困境。最后是模型能力跨類遷移能力弱,環境適應性不足。
3. 騰訊--多模態視頻號審核
隨著視頻號平臺內容生態的快速擴張,視頻內容及用戶評論數量呈現持續高速增長態勢,而人工審核(人審)在應對海量審核任務時正面臨明顯的效率瓶頸與質量挑戰。為有效提升內容審核的時效性與準確性,亟需構建覆蓋算法模型優化、審核機制創新、標準體系完善及數據可解析性提升等維度的綜合解決方案。 模型層面:引入垂類大模型 強大的自然語言處理能力,準確識別潛在的違規信息。多模態模型可以多種類型的數據,全面覆蓋審核需求。 審核層面:分甬道審核流程 疑似低違規(白甬道):對于疑似違規程度低的內容,簡化審核流程,減少人工干預,從而大幅提高審核效率。 疑似高違規(黑甬道):對于疑似違規程度高的內容,并提供違規信息的預警,幫助審核員集中精力處理高違規內容。
視頻號審核系統解決方案
多維度特征輸入:視頻圖片,文本內容(標題、圖片OCR、ASR、評論)等多維度數據,幫助模型更準確地判斷是否有害。 模型基座預訓練:模型輔助+人工標注的方式構建垂類場景預訓練數據集,選擇通用多模態基座在垂類數據上預訓練。 數據優化與微調:基于人工審核反饋,進行了多輪迭代優化,確保其在實際應用中具備更高的準確性和魯棒性。
多元信息數據流融合
視頻號審核系統融合文本RAG(政策庫檢索)與多模態內容理解,通過審核Agent實現違規內容主動攔截。
四、大模型未來發展趨勢
- 算法層面:模型將從網絡架構、動態可學習、多模態對齊統一展現出全模態能力(AGI)。
- 產品層面:將會看到越來越多以大模型為基礎復雜系統,具有人機協同交互能力。
- 領域層面:在各垂類領域深度結合,推動社會資源的重構。能力由軟到硬,AI機器人將直接用于真實世界。
未來大模型將呈現三螺旋發展:
- RAG向多模態知識圖譜演進,構建虛實融合的認知網絡;
- Agent向具身智能進化,形成環境自適應決策系統;
- 多模態向神經符號系統升級,實現可解釋的感知推理。
三者深度融合將催生新一代產業智能體,在手術機器人、智能電網等場景實現感知-認知-決策-執行的完整閉環。
備注:文章部分圖片源于互聯網及公開論文,多模態任務統一章節圖示來源于紫東太初團隊在ML-Summit大會分享。