多模態推理模型(LMRM):從感知到推理的演變
大家好,我是肆〇柒。當下,人工智能正以前所未有的速度改變著我們的生活與工作方式。其中,推理作為人工智能的核心能力之一,賦予了智能體在復雜環境中做出決策、得出結論以及進行知識泛化的能力。隨著 AI 系統越來越多地涉足動態、不確定且多模態的環境,推理能力成為了實現穩健、自適應智能行為的關鍵。大型多模態推理模型(LMRM),則是讓這一能力在多模態環境中體現出超強能力。它們集成了文本、圖像、音頻和視頻等多種數據模態,展現出強大的邏輯推理、因果推理、類比映射和長期規劃能力,致力于實現全面感知、精準理解和深度推理,從而在不同環境中為決策提供有力支持。今天,我們來一起了解一下多模態推理模型的演變歷程、技術挑戰以及未來發展方向。
大型多模態推理模型的核心路徑
多模態推理的演變范式與討論
第一階段:感知驅動的模塊化推理
早期的多模態推理依賴于感知驅動的模塊化方法,由于當時有限的多模態數據、不成熟的神經網絡架構和不夠先進的學習方法,研究人員開發出了針對特定任務的模型,這些模型通常采用不同模塊來實現多模態表示、對齊、融合和推理。隨著技術的發展,多模態推理模型經歷了多個階段的演變,如下圖。例如,一些模型使用通用的 CNN 和 LSTM 骨干網絡從多模態數據中提取答案,但很快就被基于感知線索模塊化的架構所改進,如神經模塊網絡(NMN)可以動態組裝任務特定模塊來組合視覺和文本特征,替代了靜態融合方式。
大型多模態推理模型的發展路線圖。框中突出顯示的模型是從第3階段向第4階段過渡的代表性模型,箭頭方向表明了這種過渡
隨著預訓練 - 微調學習范式的興起,大規模多模態數據集的出現以及更深層神經網絡的應用,預訓練視覺 - 語言模型(VLM)出現了,它們是為了統一表示、對齊和融合過程。比如雙編碼器對比推理的 VLM 利用雙流架構與對比學習,通過跨模態交互動態對齊和推理視覺與文本特征,像 ViLBERT 使用雙流 Transformer 與跨模態注意力實現特征對齊,CLIP 則借助對比預訓練實現零樣本推理。
然而,這一階段的推理多隱含于基礎感知處理和神經計算之中,主要側重于視覺表征和跨模態融合,常以分類為基礎范式,限制了上下文感知和泛化推理,多模態推理系統仍依賴額外模塊或任務特定增強。
第二階段:語言中心的短期推理(系統 1 推理)
隨著多模態大型語言模型(MLLM)的出現,多模態推理迎來了重大轉折,從模塊化系統邁向以語言為中心的端到端框架。這些模型在諸如視覺常識推理(VCR)、視覺問答(VQA)和視覺定位等任務上表現出色,但早期架構主要依賴于表面模式匹配和靜態知識檢索,在動態假設生成、多步邏輯推進和上下文敏感適應方面表現不足,于是鏈式思考(CoT)應運而生,它將隱式推理轉化為顯式中間步驟,把思考過程內化于端到端生成中,結合了第一階段多模態融合的表征能力和 LLMs 的語言表達能力,使推理更具上下文相關性和可解釋性。
基于 CoT 在純語言模型中的成功,研究人員將其拓展至多模態領域,發展出多模態鏈式思考(MCoT)。早期主要聚焦于基于提示的適配,通過精心設計的提示使模型能逐步生成多模態推理痕跡。在視覺推理方面,IPVR 提出 “see-think-confirm” 提示框架,引導 LLMs 進行視覺接地和事由驗證;在視頻理解領域,VoT 利用時空場景圖逐步推理,從低層次感知到高層次解釋;于特定領域應用,如自動駕駛,PKRD-CoT 引入零樣本提示框架,結構化組織感知、知識、推理與決策過程中的推理;在任務導向推理中,CoTDet 利用多層提示提取用于目標檢測的可供性知識。
后續研究還增強了推理過程本身,或引入推理路徑的結構化分解,或借助外部工具和檢索增強擴展推理能力。如在結構化推理中,事由構造方法 Multimodal-CoT 提出兩階段框架,將事由生成與答案預測解耦,以降低幻覺現象發生概率;明確定義推理程序的方法如 Cantor 區分感知與決策階段,先提取圖像或文本描述中的低層次屬性,再整合這些特征解決問題;特定模態結構化推理則針對視覺、聽覺或具身輸入的特性,融入模態感知設計,像 CoS 和 TextCoT 采用兩階段流程,先基于輸入問題識別感興趣區域,再局部檢查以實現無需分辨率損失的多粒度推理。
外部增強推理則引入優勢算法、輔助工具或專家模塊,彌補模型固有推理能力的不足。例如搜索算法增強 MCoT 的 MM-ToT 利用 GPT-4 和 Stable Diffusion,通過深度優先和廣度優先算法,依據 0.0 - 1.0 度量規模選擇最優多模態輸出;工具增強推理的 L3GO 借助 GPT-4 與 ControlNet,在模擬環境中基于 LLM 推理進行迭代式 3D 構建;檢索增強推理的 RAGAR 通過檢索多模態證據支持政治事實核查;多模態增強推理的 MCoT-Memory 通過整合記憶檢索與場景圖更新提升長鏈規劃能力。
第三階段:語言中心的長期推理(系統 2 思考與規劃)
盡管 MCoT 顯著提升了 MLLM 的推理能力,但對于現實世界多模態任務的復雜性而言仍顯不足,其多為短、反應式鏈,類似快、直觀的系統 1 推理,適用于熟悉或有界定的問題,但在抽象、組合、長期推理和適應性規劃方面表現不佳。近期研究開始借鑒系統 2 啟發的推理,強調慢、深思熟慮且具方法論結構的認知過程,使推理成為智能行為的核心而非附屬功能,從三個關鍵維度拓展 MCoT,邁向能深度、可遷移且具認知基礎推理的新一代 LMRM。
從推理模態角度看,僅依賴文本表征限制了模型捕捉特定模態知識的能力,近期研究引入跨模態推理鏈,借助視覺、聽覺和語言信號作為聯合推理基礎,實現更豐富的語義基元和更忠實的信息整合。從推理范式來講,研究人員構建更長、更高質量的鏈并引入通用、方法論指導的推理策略,如 o1 家族在廣泛認知要求高的多模態任務上展現出近人類水平的性能。
多模態家族-o1方法。它主要依賴于一個多階段、結構化的推理路徑來解決問題
從學習方法而言,強化學習增強的多模態推理勢頭漸起,通過引入智能體數據、迭代反饋和長期優化目標,像 DeepSeek-R1 這類模型在規劃、魯棒性和適應性泛化方面得到提升,催生出新一代 R1 類模型,強調可擴展、方法論基礎的多模態推理。
多模態家族-R1方法。它主要采用強化學習方法來提升大型多模態模型的推理能力
近期多模態O1類和R1類模型的時間線(上)和核心組件(下)。上半部分展示了代表性模型按時間順序的出現情況。下半部分總結了關鍵組件,包括結構化推理范式、強化學習算法(例如DPO和GRPO)以及基于規則的獎勵模型的設計
多模態推理模型路線圖
第一階段:感知驅動的模塊化推理
早期多模態推理受限于多模態數據有限、神經網絡架構處于萌芽狀態以及學習方法不夠先進,催生了為特定任務定制的模型,這些模型通常依賴不同模塊來達成多模態表示、對齊、融合與推理,以下按模型架構和學習方法可分為模塊化推理網絡與基于預訓練視覺 - 語言模型(VLM)的模塊化推理。
大型多模態推理模型的分類
模塊化推理網絡最開始依賴通用 CNN 和 LSTM 骨干網絡來從多模態數據中得出答案,但很快就被基于感知線索模塊化的推理架構所改進。神經模塊網絡(NMN)能基于任務動態組裝特定模塊,組合視覺與文本特征,替代傳統靜態融合方式;層次化共注意力(HieCoAtt)引入模塊化跨模態注意力,逐層對齊問題語義與圖像區域;多模態緊湊雙線性池化(MCB)通過高效可學習雙線性模塊優化特征交互;堆疊注意力網絡(SANs)通過在視覺特征上迭代注意力躍遷模塊化推理;動態記憶網絡(DMN)整合記憶模塊,處理順序輸入的多階段推理;ReasonNet 將推理分解為實體 - 關系模塊,用于結構化推理;自下而上和自上而下注意力(UpDn)結合這兩種注意力優先處理對象級特征,用于推理(如 VQA - v2);記憶增強神經網絡(MAC)運用帶記憶增強的控制單元進行迭代組合推理;雙線性注意網絡(BAN)通過跨模態雙線性注意網絡捕獲高階交互;異構記憶增強多模態注意力(HeteroMemory)將外觀與運動模塊同步并融合時間信息,用于視頻推理;基于關系網絡的推理(MuRel)將推理建模為對象對上的關系網絡,用于細粒度推理;模塊化協同注意網絡(MCAN)采用模塊化協同注意,結合自注意力與引導注意力,用于深度跨模態推理。
在感知驅動的多模態模塊化推理的初始階段的分類工作中,視覺語言模型(VLM)和多模態語言模型(MLLM)在提升多模態推理任務的性能方面發揮了重要作用
預訓練 VLM 基于模塊化推理隨著 Transformer 架構的問世以及預訓練 - 微調學習范式的興起,多模態表示、對齊和融合在數據和模型內部得到增強,那么,基于預訓練 VLM 的模塊化推理可分為三種類型:雙編碼器對比推理、單 Transformer 主干交互推理、多模態 LLMs 基礎的隱式推理。雙編碼器對比推理模型利用雙流架構與對比學習,在視覺和文本特征之間進行跨模態交互動態對齊與推理。例如,ViLBERT 運用雙流 Transformer 與跨模態注意力動態對齊特征;LXMERT 在雙編碼器間添加交互層,對關系嵌入進行推理;CLIP 借助對比預訓練實現零樣本推理;ALBEF 整合對比學習與動量蒸餾,對蒸餾嵌入進行推理;METER 增強雙流推理,采用模塊化編碼器 - 解碼器框架,提升對齊魯棒性(如 VCR)。單 Transformer 主干交互推理模型將視覺和文本輸入嵌入到單個 Transformer 中,直接通過統一編碼方法實現跨模態推理。例如,VisualBERT、UNITER、VL - BERT 等將視覺 - 文本輸入融合到單 Transformer 中,通過聯合上下文編碼或增強跨模態預訓練進行推理;PixelBERT 運用 CNN 和 Transformer 架構處理像素,用于細粒度推理;UniVL 統一視頻 - 語言推理,采用單 Transformer 處理時間跨模態任務(如 TVQA);Oscar、VinVL 等以對象標簽或增強視覺特征錨定推理,提升語義推斷(如 VCR、GQA);ERNIE - ViL 整合場景圖知識到單 Transformer 中,通過結構化的視覺 - 語言交互增強組合推理;UniT 通過共享自注意力 Transformer 主干簡化多模態任務,實現統一推理;PaLI 以多語言框架擴展單 Transformer 推理,用于跨語言推理(如 OK - VQA);Flamingo 采用跨注意力優先動態交互視覺 - 文本輸入;BEiT - 3 采用掩碼數據建模統一視覺 - 語言學習;OFA、BLIP - 2 等引入統一多模態框架或查詢 Transformer,提升跨模態推理效率(如 VQA - v2);Kosmos - 1、Kosmos - 2 實現輸入交錯處理或定位能力,用于靈活的多模態理解和精準目標定位。多模態 LLMs 基礎的隱式推理模型將視覺輸入映射到大型語言模型的文本空間,利用大型語言模型的上下文推理能力提升多模態推理性能,其架構包含預訓練視覺編碼器和大型語言模型,如 Vision - Encoder - LLM。CLIP - Cap 把 CLIP 視覺特征映射到 LLM 進行推理和描述任務;LLaVA 通過調優 ViT - LLM 集成實現對話推理;MiniGPT - 4、InstructBLIP 等通過投影層或指令調優將 ViT 與凍結 LLM 對齊,簡化視覺 - 文本推理;Qwen - VL 引入空間感知 ViT,增強基于空間的推理;mPLUG - Owl、LMEye、Otter 等整合模塊化視覺編碼器與 LLM,用于指令遵循和上下文學習的多模態推理。
第二階段:語言中心的短期推理(系統 1 推理)
隨著大規模多模態預訓練的興起,MLLM 開始展現出新興推理能力,然而此類推理通常較為淺薄,主要依賴隱式關聯而非顯式邏輯過程。MCoT 作為一種簡單卻有效的方法,通過引入中間推理步驟,改善了跨模態對齊、知識整合和上下文基礎,在無需廣泛監督或顯著架構修改的情況下提升了推理性能。該階段的研究方法可分為三類范式:基于提示的 MCoT、具有預定義模式的結構化推理以及借助輕量級外部模塊的工具增強推理。
基于提示的 MCoT 方法將文本鏈式思考范式拓展至多模態情境,使模型能夠以可解釋性與極少附加訓練的特性,逐步跨模態進行推理。在視覺推理領域,IPVR 設計了結構化的 “see-think-confirm” 提示框架,引導 LLMs 經歷視覺接地與事由驗證過程;VIC 在視覺輸入前提示文本推理鏈,以減少幻覺現象并提升準確性。于視頻理解方面,VoT 利用時空場景圖,促使模型從低層次感知逐步過渡至高層次解讀;VideoAgent 作為由 LLM 協調的系統,以極少量幀使用迭代式從長視頻中提取關鍵信息;LET 在 VIP 數據集上采用逐幀提示策略,引導模型進行視頻填補與預測的時序推理。在特定領域應用中,PKRD-CoT 推出了零樣本提示框架,將自動駕駛推理貫穿于感知、知識、推理與決策環節;LPE 基于提示的推理整合了對口語內容與情感線索的處理,以生成富有同理心的回應;EMER 將提示應用于多模態情感識別,融合單模態線索并產出可解釋預測。任務導向推理同樣受益于基于提示的 MCoT,CoTDet 運用多層級提示提取可供性知識,助力于目標檢測;AntGPT 通過提示使 LLMs 能從基于視頻的動作序列中推斷人類目標與時間動態;CPSeg 制定鏈式思考提示,對齊文本與像素級語義,增強分割效果。
結構化推理與基于提示的 MCoT 方法不同,該方法通過監督訓練學習推理模式,將松散的推理引導轉化為標準化的分階段流程,從而提升復雜多模態任務的可擴展性、可靠性和效率。它可分為三類代表性類型:事由構建、明確定義推理程序以及特定模態結構化推理。
多模態思維鏈中結構化推理的分類與代表性方法
事由構建是多模態情境下結構化推理的基礎,起始于有效的推理學習方法。Multimodal-CoT 提出兩階段框架,將事由生成與答案預測分離,以降低幻覺現象發生率;T-sciq 借助教師 LLM 生成復雜度各異的事由,凸顯事由質量對推理準確性的重要性。明確定義推理程序方面,Cantor 將推理劃分為感知與決策階段,感知階段提取圖像或文本描述中的低層次屬性(如物體、顏色、形狀),決策階段融合這些特征解決實際問題;TextCoT 采用三階段流程,包括圖像概述、粗定位與精細觀察,逐步融合全局與局部語義,生成精準答案;Grounding - Prompter 從全局理解、去噪、分區理解到預測,漸進式融合全局與局部語義,抵抗噪聲干擾,提升時間邊界感知能力。音頻 - CoT 運用三種鏈式思考范式,包括依賴手工示例的 Manual - CoT、借助簡單提示實現零樣本推理的 Zero - Shot - CoT,以及通過生成音頻描述輔助推理的 Desp - CoT。VIC 在多模態情感識別中,先分解任務為基于文本的子步驟,再整合視覺輸入形成最終事由;Visual Sketchpad 在素描過程中將事由組織為思考、行動與觀察三階段。 DetCoT 將 VQA 推理形式化為子任務組合與復審;BDoG 采用辯論與總結流程,借助特定智能體提升性能;CoTDet 將 VQA 推理固化為人類類流程,包括列出對象、分析可用性和視覺特征總結;CoCoT 對輸入相似性與差異性進行系統性比較;SegPref 在視覺空間中精確定位發聲物體,借助全局理解、聲音過濾與去噪手段。 EMMAX 整合基于規劃與預測的運動控制方法。特定模態結構化推理為應對多模態輸入獨特挑戰(尤其視覺 - 語言任務),近期研究引入了特定于模態的推理結構。一些研究聚焦于基于區域的接地,利用空間定位引導結構化推理。例如,CoS 與 TextCoT 采用兩階段流程,先基于輸入問題識別感興趣區域,再進行局部檢查,實現無需分辨率損失的多粒度推理;DDCoT 延伸此范式,引入雙引導機制,結合邊界框接地與語義相似實例檢索,共同提升細粒度與上下文感知推理。除空間接地外,另一類別研究聚焦于文本引導的語義豐富化。Shikra 與 TextCoT 利用圖像字幕作為高級語義線索,引導空間注意力與對象接地,減少對外部檢測模塊的依賴,促進更易解釋的指代推理;受經典 CoT 框架啟發,DDCoT 與 AVQA-CoT 將復雜視覺或視聽查詢分解為順序子問題,借助 LLMs 選擇相關子問題,實現跨模態多跳推理。最終,E-CoT 將結構化推理拓展至具身場景,通過任務重述、規劃與低層次動作執行的交織,凸顯在視覺 - 語言 - 動作模型中,跨越語義與感觀 - 運動層面的事由鏈的必要性。
結構化推理,通過將明確的程序結構整合到模型中,將松散引導的推理轉化為標準化的、逐步的流程,在復雜的多模態任務中增強了可擴展性、可靠性和效率
外部增強推理引入優勢算法、輔助工具或專家模塊,以彌補模型固有推理能力的不足。這些組件在推理時或訓練中與模型集成,支持更可控、可擴展且面向任務的推理流程。通過將核心推理步驟從基礎模型中解耦,這些方法增強了長鏈推理與領域專業化。
外部增強推理是通過引入算法、工具或專家模塊等外部資源來增強模型的推理能力,從而克服其固有局限性的一種方法
我們可將外部增強方法分為四類:(i)搜索算法增強 MCoT,借助各種搜索策略引導推理過程;(ii)基于工具的增強,利用外部語言工具或系統指導推理執行;(iii)檢索增強推理,將相關多模態知識從外部來源整合進推理路徑;(iv)多模態增強,整合專門的多模態模塊以支持感知驅動的推理。
搜索算法增強的 MCoT 方法賦予模型在推理過程中動態導航和優化推理軌跡的能力。例如,MM - ToT 結合 GPT - 4 和 Stable Diffusion,運用深度優先搜索(DFS)和廣度優先搜索(BFS)算法,依據 0.0 - 1.0 度量規模挑選最優多模態輸出;HoT 從多模態輸入中生成關聯想法,并將它們打包成單個超邊;與之不同,聚合圖思考(AGoT)構建推理聚合圖,每一步整合多種推理元素,并隨后引入視覺數據;藍圖辯論圖(BDoG)摒棄搜索算法,采用三個智能體——肯定辯論者、否定辯論者和主持人——進行迭代辯論,主持人最終整合出一個最終答案,從而隱式構建包含廣泛想法的思考圖。
基于工具增強的推理方法利用外部文本增強工具,通過語言引導、結構化或優化整體推理流程。例如,L3GO 運用 GPT - 4 與鏈式思考提示生成明確的文本推理步驟,借助 ControlNet 在 Blender 環境中進行迭代式 3D 構建;HYDRA 與 Det - CoT 不僅將大型語言模型用作規劃工具,還作為動態指令生成器、錯誤診斷器和推理控制器,它們與視覺基礎模型(如 BLIP2、LLaVA)和強化學習智能體互動,通過文本提示和反饋迭代改進視覺理解與決策。這些系統整合狀態記憶庫以保持對話歷史或先前指令,通過文本調制實現基于增量鏈式思考的推理。鏈式圖像(Chain - of - Image)引入 SyMLLM,根據語言描述生成中間圖像,將復雜問題轉化為視覺推理任務,但仍以語言為基礎進行控制。AnyMAL 將多種模態統一到文本空間,以實現跨模態推理,而 SE - CMRN 利用語法提示通過 GCN 提升視覺常識推理中的語言引導視覺推理性能。
檢索增強推理方法通過檢索機制增強多模態推理。例如,RAGAR 提出 CoRAG 和 ToRAG,借助檢索多模態證據支持政治事實核查;鏈式行動(Chain - of - Action)通過可配置的推理鏈從異構來源檢索信息;KAM - CoT 整合知識圖譜作為外部知識源,通過兩階段訓練增強多模態推理;AR - MCTS 將動態逐步檢索與蒙特卡洛樹搜索結合,使 MLLM 在每一步推理中訪問相關知識,并自動生成高質量推理。
多模態增強方法利用專門的多模態模塊增強模型的推理能力。例如,MCoT - Memory 提升長鏈規劃能力,整合記憶檢索與場景圖更新,保留高置信度經驗以支持穩健決策;MGCoT 運用 ViT - large 編碼器提取視覺特征,結合斯坦福核心 NLP 系統進行共指解決,以及 OpenIE 系統提取思考單元節點,實現高效的 GoT 推理;CCoT 通過生成場景圖作為中間推理步驟,提升 LMMs 的復合視覺理解和多模態推理能力;CVR - LLM 包含 CaID 和 CVR - ICL 兩個關鍵組件,前者通過迭代自完善生成具情境感知的圖像描述,后者創新性整合文本與多模態因素,選擇情境示例,增強 LLMs 在復雜視覺推理任務中的表現;CAT 整合預訓練圖像描述生成器 SAM 與指令調優的大型語言模型,通過視覺控制和語言控制實現以用戶為中心的圖像描述。
第三階段:語言中心的長期推理(系統 2 思考與規劃)
盡管結構化推理引入了預定義模式以引導 MLLM 進行更系統的推理,但其仍受限于推理深度淺薄和適應性不足。為應對更復雜的多模態任務,近期研究主要在開發類系統 2 推理,這種推理形式具有深思熟慮、組合性且由顯式規劃指導的特點。通過延展推理鏈、基于多模態輸入對其進行基礎化,并采用監督或強化信號進行訓練,這些模型開始展現出長期推理和適應性問題分解能力。
跨模態推理指向整合并跨文本、圖像、視頻等多種模態進行推理的能力。近期跨模態推理進展強調通過模型內在能力或外部工具和算法,增強多模態信息,以提升推理準確性和魯棒性。這些方法是為了通過動態整合不同模態的互補信息來增強推理。
提升跨模態推理的方法,跨模態推理是指整合并推理多種模態(如文本、圖像、視頻)的能力
例如,外部工具的利用在多模態理解中的描述之外,近期方法越來越多地探索工具整合作為多模態推理本身的載體。VisProg 和 ProViQ 利用程序生成和過程執行實現跨模態推理,動態生成可執行代碼或邏輯路徑以解決復雜任務,如視頻問答、多步視覺推理和幾何問題求解。與此同時,如 AssistGPT、MM - ReAct 和 Multi - Modal - Thought 等方法采用模塊化集成框架——例如 PEIL 和視覺專家提示——基于推理進展協調工具使用。這些系統通過在任務執行期間動態調用不同工具,實現可解釋且適應性強的推理。VisualReasoner 進一步引入數據合成策略,生成多步推理痕跡,用于訓練可插拔的視覺推理模塊,適用于多種視覺 - 語言骨干網絡。總體而言,這些努力通過結合程序歸納、動態工具編排和數據驅動推理監督,拓展了多模態推理的景觀。
外部算法方面,FAST 和 ICoT 均借鑒類似人類思維的認知過程,其中 FAST 采用系統切換適配器在快思考和慢思考模式之間動態切換,而 ICoT 利用注意力驅動選擇(ADS)交錯視覺和文本推理步驟。與此同時,Image - of - Thought 和 CoTDiffusion 聚焦于生成視覺事由,前者逐步提取視覺信息,后者創建視覺子目標計劃,將算法增強擴展至機器人領域。
模型內在能力方面,這些方法依賴于 LMM 生成或推斷多模態信息的內在能力,無需外部工具。例如,T - SciQ、Visual - CoT 和 VoCoT 證明,通過對精心設計的 CoT 數據集(如 VoCoT - Instruct80K)進行微調,可在圖表、文檔和幾何問題中實現單步多模態推理。MVoT 是早期嘗試之一,其自包含架構通過迭代改進視覺 - 文本表示,用于具身推理任務。
第四階段:邁向原生大型多模態推理模型(展望)
盡管 LMRM 在處理復雜任務時展現出長鏈思考的潛力,但其以語言為中心的架構對其在現實世界場景中的有效性施加了關鍵限制。它們主要聚焦于視覺和語言模態,限制了其在現實環境中處理和推理交織的多樣化數據類型的能力,同時其在實時、迭代地與動態環境互動方面的表現仍有待提升。
展望原生大型多模態推理模型(N - LMRM)的發展,這可能成為機器智能的范式轉變。與傳統 LMRM 將語言模型與輔助模態處理器相拼接不同,N - LMRM 將被原生設計為在一個完全端到端的架構中統一多模態理解、生成和智能體推理。真實世界的數據類型將在一個統一的表示空間中被編碼,例如 VideoPoet,同時大規模合成數據促進對任何模態交互環境中的推理和規劃的全面學習。這一演變依賴于兩項變革性能力:1)多模態智能體推理:N - LMRM 將體現智能體智能,實現與復雜環境的主動、目標驅動的互動,例如長期規劃——任務分解和記憶增強推理以確保在擴展互動中的連貫性;動態適應——基于環境反饋實時調整策略;具身學習——通過模擬或物理互動的閉環訓練框架,使模型通過學習實現更好的泛化。2)全模態理解與生成推理:N - LMRM 將超越特定模態的編碼器和解碼器,利用統一的表示空間實現平滑的跨模態合成與分析。這包括異構數據融合,用于聯合嵌入多樣化數據類型的;上下文多模態生成,用于連貫創建復合輸出;以及與模態無關的推理,啟用可適應的處理流程,以任務無關的方式處理新的或任何跨模態數據。
通向原生多模態推理模型
實驗發現
盡管 LMRM 在生成全面思考過程和解決復雜問題(如 MMMU 和 MathVista)方面取得了顯著進展,但其在以下方面遠未達到現實世界應用的要求:1)評估范圍應涵蓋多種模態,包括視覺、音頻和文本。2)評估能力應涉及與外部環境的互動,需要長期推理和適應性規劃。以下匯總了研究者收集的全模態和智能體基準測試,隨后分析了 LMRM 在這些基準測試中的表現。
對當前大型多模態模型(LMRM)的深度推理缺陷進行暴露的智能體式和全模態基準測試的總結。其中,T、I、A、V分別代表文本、圖像、音頻和視頻
全模態基準測試近期研究引入了一系列全模態基準測試,這是為了評估 LMRM 在各種數據類型(例如圖像、音頻、文本和視頻)上的統一理解和推理能力。例如,OmniMMI 是為了全面評估開放世界環境中流視頻背景下的交互能力。實驗結果顯示,即使是商業模型(如 Gemini - 1.5 - Pro 和 GPT - 4o),其平均準確率也低于 20%。當任務需要統一模態理解(OmniBench、TaskAnything 和 JudgeAnything、MixEvalL - X),無論是開源還是閉源模型的表現均顯著低于單一模態條件下的表現。具體而言,在音頻 - 視頻問答(AVQA)任務(如 WorldSense)中,Claude 3.5 Sonnet 僅實現 35% 的平均準確率,而表現最佳的開源模型僅達到 25% 的準確率。在更具挑戰性的多模態推理任務中(如 BabelBench 和 OmnixR),隨著模態數量的增加,所有模型的性能均急劇下降。這表明模型在處理圖像、視頻和音頻輸入時生成推理路徑的能力弱于文本輸入。這些發現共同表明,當前 LMRM 尚無法有效處理全模態輸入。
智能體基準測試多樣的任務凸顯了多模態智能體評估環境的復雜性和廣度。這些包括 AgentBench 的多環境任務、WorfBench 的復雜工作流規劃場景、OSWorld 和 AndroidWorld 的完整操作系統交互、EmbodiedBench 的基于視覺的導航和操作挑戰、VisualWebArena 的視覺基礎網絡任務以及 GAIA 的開放式、工具增強查詢。在智能體基準測試中,LMRM 通常在性能上領先,并取得了顯著進展。然而,即使是最先進的模型也始終未能達到人類水平的可靠性,并在復雜、開放式任務上掙扎。跨基準測試的評估反復暴露了常見的瓶頸:模型通常在現實世界接地、連貫的長期推理和規劃、與外部工具的無縫集成以及在多樣化模態和領域中的穩健性方面失敗。例如,在 BrowseComp 基準測試中,GPT - 4o 僅實現 0.6% 的準確率,當接入瀏覽工具時提升至 1.9%,凸顯了工具交互規劃能力的薄弱。OpenAI 的 O1 推理模型達到 9.9%,但仍存在顯著提升空間。值得注意的是,OpenAI 的深度研究通過針對網絡搜索的特定調優,利用自主迭代工具調用和推理完成了 51.5% 的任務。實驗結果凸顯了當前大型推理模型在長期推理和適應性規劃方面的不足,可能需要特定的調優和架構增強,以發展為真正的原生智能體系統。
O3 和 O4 - mini 的初步研究最近,OpenAI 推出了 O3 和 O4 - mini,為 ChatGPT 工具提供完整的智能體訪問權限,并使模型能夠在思考過程中 “使用圖像”。例如,在段落后面“OpenAI o3的長多模態思維鏈案例研究”這張圖中,O3 在 8 分鐘 13 秒的思考過程中表現出清晰的任務分解。通過反復試驗,它有效確定了裁剪每個子圖的最佳方式,最終得出了正確答案。
OpenAI o3案例研究:尋找地點,解開謎題并創建多媒體內容
除了視覺推理之外,研究人員還評估了 O3 在文件處理、拼圖求解、位置識別和多媒體內容創作等方面的能力。如上圖(OpenAI o3案例研究:尋找地點,解開謎題并創建多媒體內容)和 下圖(OpenAI o3案例研究:視覺問題解決與文件處理)所示,O3 在復雜多模態問題解決中表現出色,通過捕捉和利用圖像中的微妙線索。然而,一些挑戰也被識別出來:1)語言知識可能會干擾視覺輸入。例如,在下圖中的數手指案例中,O3 錯誤地將圖像識別為標準舉起的手表情,顯示四個手指加拇指,而圖像實際上顯示了六根手指。2)OpenAI 的 O3 在輸入文件處理和多媒體內容生成方面存在困難。由于工具限制以及編碼環境中缺乏互聯網訪問,文件處理和多媒體創作往往出現不準確的情況。在下圖所示的簡歷信息收集案例中,從簡歷 PDF 中解析的電話號碼可能不準確,O3 還會通過重復類似內容來編造候選人的項目經驗。此外,在上圖所示的多媒體創作案例中,生成的幀未能遵循 “小熊貓” 指令,O3 也無法支持文本 - 圖像交替生成。3)OpenAI 的 O3 可能在思考過程中編造推理。它偶爾會構造不正確的理由來支持潛在正確的答案(例如,上圖中的拼圖求解案例)。這個問題迫切需要解決,因為它可能導致模型在后訓練過程中試圖欺騙用戶。事實上,這突顯了模型尚未掌握解決問題的相關思維邏輯。
OpenAI o3案例研究:視覺問題解決與文件處理
除了視覺推理之外,研究者還評估了 O3 在文件處理、拼圖求解、位置識別和多媒體內容創作等方面的能力。如上兩圖所示,O3 在復雜多模態問題解決中表現出色,通過捕捉和利用圖像中的微妙線索。然而,一些挑戰也被識別出來:1)語言知識可能會干擾視覺輸入。例如,在上圖中的數手指案例中,O3 錯誤地將圖像識別為標準舉起的手表情,顯示四個手指加拇指,而圖像實際上顯示了六根手指。2)OpenAI 的 O3 在輸入文件處理和多媒體內容生成方面存在困難。由于工具限制以及編碼環境中缺乏互聯網訪問,文件處理和多媒體創作往往出現不準確的情況。在上圖所示的簡歷信息收集案例中,從簡歷 PDF 中解析的電話號碼可能不準確,O3 還會通過重復類似內容來編造候選人的項目經驗。此外,在圖(OpenAI o3案例研究:尋找地點,解開謎題并創建多媒體內容)所示的多媒體創作案例中,生成的幀未能遵循 “小熊貓” 指令,O3 也無法支持文本 - 圖像交替生成。3)OpenAI 的 O3 可能在思考過程中編造推理。它偶爾會構造不正確的理由來支持潛在正確的答案(例如,上面圖中拼圖求解案例)。這個問題迫切需要解決,因為它可能導致模型在后訓練過程中試圖欺騙用戶。事實上,這突顯了模型尚未掌握解決問題的相關思維邏輯。
OpenAI o3的長多模態思維鏈案例研究:經過8分13秒的推理后得出正確答案。該問題來自中國公務員考試
N - LMRM 的能力
基于上述實驗發現,引入了原生大型多模態推理模型(N - LMRM)的概念。N - LMRM 是原生設計的,目標是跨任何模態統一多模態理解、生成和智能體推理,這將超越 O4 - mini 的感知和推理范圍。這一進步將建立在以下兩項變革性能力之上,這些能力在很大程度上是并行探索的:多模態智能體推理,這使得主動、目標驅動的互動成為可能,通過分層任務分解、實時戰略調整和具身學習;以及全模態理解與生成推理,這支持通過統一表示實現無縫跨模態合成與分析——促進異構數據融合和上下文多模態互動。
下一代原生大模態推理模型概述。該構想中的系統為了實現對各種現實世界數據模態的全面感知,從而實現精準的全模態理解和深入的生成式推理。這一基礎模型將帶來更高級形式的智能行為,從世界經驗中學習,實現終身學習和自我完善
下表總結了與智能體和全模態模型相關的現有工作。這些模型僅探索了 N - LMRM 的部分能力,并未結合上述兩種能力來構建更強大的大型多模態推理模型。
近期面向N-LMRM的智能體型和全模態模型綜述
多模態智能體推理的核心能力是動態適應,可以根據環境反饋實時調整策略。一些行業內的最新產品已經初步展示了這種能力。例如,Model Context Protocol(MCP)和 Agent2Agent Protocol(A2A)促進了多樣化工具的無縫集成,并實現了跨各種外部環境的動態互動,這些協議強調了多模態智能體推理的重要性,使智能體能夠基于環境反饋實時調整策略,從而增強其在動態和多面現實世界應用中的有效性。例如,Operater 將 GPT-4o 的視覺能力與通過強化學習實現的先進推理能力相結合,使其能夠通過圖形用戶界面(GUI)與操作系統和瀏覽器進行實時互動,并在任務執行過程中持續改進其瀏覽和數據操作。同樣,Claude Computer Use 允許模型操縱和導航桌面環境,并通過試錯學習最佳互動策略。
此外,Search-o1 在推理過程中利用外部知識檢索來填補其理解空白。R1 - Searcher 和 DeepResearcher 通過強化學習增強了其自主使用搜索引擎收集信息的能力。通過將這種自主知識檢索整合到推理過程中,這些系統能夠以更精細的理解行動,并根據變化的任務調整其響應。Gemini 2.0 能夠處理和生成多模態內容,并通過與谷歌的各種工具深度集成以及結合其先進的推理能力,有效分解任務,并在處理多步問題時逐步獲取所需信息。盡管當前模型已經展示了這種功能的初步版本,但它們在進行持續、跨模態的互動推理方面仍然力不從心。
另一個方面是大型多模態推理模型的具身學習,用于處理外部環境。例如,Magma 通過與真實世界數據的互動進行學習,提升其空間 - 時序推理能力,以在虛擬和物理環境中有效導航和操作物體。同樣,OpenVLA 結合視覺編碼器與語言模型,使系統能夠從真實世界機器人的示范中學習。這種具身方法使模型能夠獲取視覺和特定任務的推理技能,增強其執行需要多模態理解和適應的復雜現實世界操作的能力。總之,近期的 RL - 規模方法將極大地激發大型模型的智能行為,推動世界模型的發展。
全模態理解與生成推理多模態智能體的行為與其底層大型多模態模型的深度推理能力密切相關,尤其是在感知范圍、理解準確性和推理深度方面。因此,開發一個全面的全模態模型以用于現實世界應用并增強其深度推理能力是基礎性的。
技術前景
原生大型多模態推理模型(N - LMRM)的技術前景目標是原生地統一各種數據類型的理解、生成和推理,從語言和視覺到音頻、觸覺、傳感器讀數、時間序列和結構化數據,使我們更接近能夠看、聽、說和行動的統一且協調的系統。然而,構建此類 N - LMRM 面臨著重大挑戰。這些模型必須在架構上被設計為能夠在單個系統中處理異構模態,通過使用其內在多模態推理鏈通用和多樣化工具,并支持從現實世界互動中持續學習。本節概述了構建 N - LMRM 的關鍵挑戰,并提出了可能的解決途徑。
統一表示與跨模態融合一個基本挑戰是創建一個能夠在統一方式下處理和生成不同模態的單一模型架構。傳統方法通常為每個模態使用獨立的編碼器。相比之下,原生全模態模型尋求更統一的設計,允許模態間的無縫互動。一種可能的解決方案是將所有輸入和輸出同質化為共同格式,并統一處理任何模態。這需要精心設計,以防止負向干擾,即一個模態可能主導或損害其他模態的表示。因此,混合專家(MoE)架構的新興解決方案應運而生,其中特定模態的專家僅在相關輸入被激活,而核心語言模型作為語言智能的骨干。
交織的多模態長鏈思考基于統一表示,N - LMRM 可以將傳統的長內部思考鏈擴展到多個模態的交織推理過程中。這為測試時計算擴展提供了新的維度,無縫融合不同模態。OpenAI 最近發布的 O3 和 O4 - mini 標志著這一方向的開創性嘗試,即在思考鏈中使用圖像進行推理(OpenAI, 2025),通過可以自動處理的工具進行縮放、裁剪、翻轉或增強圖像。重要的是,這些能力是原生的,不依賴于獨立的專用模型。受軟件工程、國際數學奧林匹克競賽、創意寫作和 GUI 操作等領域強化學習泛化能力的鼓舞,將強化學習擴展到更多模態、更長的工具增強推理鏈和更廣泛的推理任務,可能是下一代 N - LMRM 的配方,能夠模擬跨模態推理并提升機器智能。
從世界經驗中學習與演化在動態發展的智能系統中,“世界模型 2” 的核心價值不僅在于其在復雜環境中的實時建模和推理能力,如自動駕駛,還在于其通過與環境持續互動實現終生學習的演化機制。當 MCP 和 A2A 創建工具和智能集群的高密度網絡時,系統可以通過與環境、工具和其他智能體的多維度互動,將每次互動轉化為結構化的經驗。這包括從實時數據流中進行模式識別、跨工具操作鏈的因果推理、在通信網絡中的協作反饋以及在異常場景中的自主適應。
這種持續學習范式使 LMRM 能夠克服靜態知識庫的限制。通過迭代積累世界經驗,它動態更新其認知架構和決策策略。特別是在開放環境中,自主學習機制驅動模型積極探索工具組合的潛力。在解決新問題的過程中,它同時存儲可轉移的知識,最終形成一個既具有專業推理能力又保持跨場景泛化韌性的智能系統。研究者認為,結合在線強化學習和離線驗證方法的互動學習方法,可能會持續激發 LMRM 的能力,這已在 GUI 智能體模型中被利用以持續提升性能。
數據合成當前 LMRM 的能力在很大程度上是數據驅動的。為了在預訓練階段增強這些模型,開發高質量的數據合成管道以定制其功能至關重要。大多數現有的數據合成工作集中在提高單模態或跨模態的理解和推理,特別是在視覺、語言和語音等領域。然而,在更復雜的方面,例如對齊三種或更多模態、創建多模態互動鏈式思考和視覺生成、在動態環境中進行多步規劃以及協調多工具調用和并行工具使用,鮮有探索。這些領域為推進多模態推理模型提供了重大機遇。
數據集和基準測試
多模態推理模型的發展和優化催生了一系列任務和基準測試,用于對模型在不同方面(如視頻理解、視覺推理等)進行實證能力評估和分析。以下將現有數據集總結并分類為四大類:理解、生成、推理和規劃,同時總結這些基準或數據集常用的評估指標和維度。
按任務類型劃分的多模態基準測試和數據集(訓練)概覽:理解(以視覺為中心、以音頻為中心)、生成(跨模態、聯合多模態)、推理(通用視覺、特定領域)以及規劃(圖形用戶界面、具身與仿真環境)。這些基準測試通常需要進行簡短或較長的推理才能成功完成任務,例如具有挑戰性的視覺和音頻生成
數據集和基準測試的概述。我們將多模態數據集和基準測試重新劃分為四個主要類別:理解、生成、推理和規劃
多模態理解
多模態理解是指模型處理和解釋來自多種模態(如視覺和聽覺數據)的能力,以執行需要理解、推理和生成的任務。這些任務對于開發能夠以更類人方式與現實世界互動和響應的模型至關重要。根據任務定義,現有的多模態理解任務可分為兩大領域:1)以視覺為中心的理解,涵蓋模型理解和推理視覺內容的能力;2)以音頻為中心的理解,側重于涉及語音、音樂和環境聲音等的任務。
視覺中心理解
以視覺為中心的理解評估模型理解和推理視覺數據(如圖像和視頻)的能力,涵蓋從一般視覺理解到文檔和圖表解釋、多語言視覺推理、視頻理解、數學和科學推理以及綜合基準等多個領域的專門任務。每個領域都針對視覺理解的不同方面,從自然圖像中的對象識別和空間推理到結構化視覺數據(如文檔和圖表)的解釋。以下對這些類別進行詳細探討:
一般視覺理解一般的視覺問答(VQA)數據集在復雜性和范圍上都有所發展。早期的數據集如 VQA 和 GQA 主要關注自然圖像中的對象識別、屬性識別和簡單的空間推理。這些數據集通常包含圖像 - 問題 - 答案三元組,問題格式簡單(例如,“汽車是什么顏色?”)。重點主要放在自然圖像和基本感知上。更近期的數據集如 ALIGN 為了解決更復雜的視覺 - 語言任務,包括圖像 - 文本對齊和多模態表示。Visual Genome 通過包含關系和對象級信息擴展了視覺理解,從而推動了推理的邊界。LAION - 400M 數據集是最大的圖像 - 文本對集合之一,為視覺 - 語言模型的大規模訓練提供了基礎。FILIP 和 YFCC100M 整合了視覺和語言,提升了模型在各種基準測試中的性能。
文檔、圖表和 OCR 視覺理解文檔、圖表和 OCR 基于 VQA 數據集構成了一個專門領域,專注于理解和解釋包含文本元素的結構化視覺信息。例如,DocVQA 針對文檔理解,要求模型在文檔中定位和解釋文本以回答問題。圖表 VQA,如 DVQA,專注于解釋視覺數據表示,包括條形圖、折線圖和餅圖,測試模型對這些結構的理解能力。OCR - VQA 數據集如 TextVQA 和 OCR - VQA 強調閱讀和推理嵌入在自然圖像中的文本。這些數據集具有幾個獨特特征:1)OCR 與視覺理解的深度整合,2)結合文本和視覺元素的多步推理,3)對文檔結構、圖表慣例或文本布局的特定領域知識。與通用 VQA 數據集不同,這些集合更加強調視覺和文本內容之間的跨模態互動,特別是在更結構化的上下文中。此外,像 AI2D 這樣的數據集側重于圖表和結構化視覺表示,增強了對圖形內容的推理。
多語言視覺理解多語言視覺理解數據集滿足了多模態系統對語言多樣性的日益增長的需求。數據集如 CMMLU、C - Eval、Exams - v、M3exam、VideoVista - CulturalLingo 和 MTVQA 超越了以英語為中心的 VQA 系統。這些數據集的特征包括:1)涵蓋多種語言的問題和注釋,涉及各種語言家族,2)在不同文化背景下測試視覺理解和語言能力,3)要求模型理解可能具有特定文化解釋或參考的視覺概念。與單語言 VQA 數據集相比,這些多語言數據集評估并增強了 MLLM 的跨語言遷移能力。
視頻理解視頻理解數據集,例如 ActivityNet - QA 和 Perception Test ,越來越多地被用于訓練和評估模型在動態視覺任務中的表現。與靜態圖像數據集相比,這些數據集要求模型解決基于時間的理解問題,涉及多個幀中的動態視覺特征。它們包括對動作、事件和時間關系的注釋,并涵蓋從幾秒鐘到幾分鐘不等的多樣化視頻時長。現有的視頻評估數據集已擴展到應對科學領域(例如 Video - MMMU )、長視頻領域(例如 Video - MME )以及全面的視頻理解和推理(例如 VideoVista )的挑戰。VideoVista 提供了一個多功能基準測試,包含 14 類視頻,時長從幾秒鐘到超過 10 分鐘,并涵蓋 19 個理解任務和 8 個推理任務。它利用由 GPT - 4o 提供支持的自動注釋框架,增強了其可擴展性和多樣性。像 YouTube8M 這樣的數據集已成為視頻分類和多模態理解的大規模基礎。此外,VidGen - 1M 和 WebVid 作為訓練數據集,通過整合多模態文本和視覺信號來增強視頻理解。
綜合基準綜合評估基準如 MMBench、Seed - Bench 和 MME - RealWorld 已出現,以提供對現有多模態模型的更全面評估。這些基準測試衡量模型在現實世界場景中整合視覺和語言理解的能力,包括 1)多維度評估框架,評估視覺理解的各個方面,從感知到推理和知識整合,2)精心設計的問題,為了探索特定能力并識別弱點,3)標準化評估流程,以實現跨模型的公平比較。與早期特定任務的數據集不同,這些基準測試提供了模型整體能力的全面衡量。
音頻中心理解
以音頻為中心的理解指的是評估模型處理、解釋和響應各種形式的音頻輸入(如語音、環境聲音和音樂)的能力。隨著這些模態在機器學習任務中的重要性日益增加,評估模型對音頻數據的理解和互動能力已成為一個關鍵關注點。評估涵蓋了語音、音頻和音樂理解的不同方面,包括準確性、翻譯、情感識別和一般理解的多種基準和數據集。
語音理解語音評估數據集在評估模型的音頻領域性能方面發揮著關鍵作用。這些數據集主要從幾個角度衡量模型是否能夠準確清晰地理解現實世界中的語音。現有的數據集從語音識別的準確性角度評估,如 Librispeech 是一個由不同演講者朗讀的有聲讀物數據集,是廣泛使用的英語語音識別評估指標。Common Voice 收集來自全球志愿者的語音記錄,為模型訓練提供了一個多元化的語音數據集。Aishell 系列是中國語音識別的標準。Fleurs 評估了多語言語音識別和語音 - 文本翻譯模型。從語音多語言翻譯任務的角度來看,CoVoST2 是一個多語言語音 - 文本翻譯數據集,評估了模型的實時語音識別翻譯能力。從語音情感識別的角度來看,MELD 數據集評估了模型在 TV 劇中多演講者的情感語音中識別情感的能力。
環境聲音理解環境聲音理解是音頻理解的另一個重要方面,涉及從非人類語音中提取和識別信息。與人類語音相比,環境聲音提供了更復雜和多樣化的信息。主要的評估數據集主要在兩個關鍵領域評估音頻理解:1)音頻描述,Clotho 包含來自免費聲音平臺的聲音,主要用于音頻描述任務。同樣,AudioCaps 源自 AudioSet 數據集,也專注于音頻描述,具有更廣泛的應用范圍。2)音頻問答(AQA),ClothoAQA 是一個眾包的 AQA 數據集,AQUALLM 是基于 LLM 的自動音頻 QA 生成框架構建的。這些基準測試包括各種音頻類型及其配對的問題和答案,幫助模型學習理解音頻內容并生成對音頻相關問題的準確回應。
音樂理解音樂憑借其結構特性和復雜的變體,已成為音頻理解的一個重要研究領域。音樂評估主要考慮兩個方向:主流數據集如 MusicNet 和 NSynth 評估了模型識別音樂理論元素(如樂器、音符、音高和節奏)的能力。此外,MusicCaps 和 MusicBench 用于對整個音樂曲目的描述,測試模型理解音樂作品的詳細內容和整體結構的能力。
綜合基準隨著大型音頻 - 語言模型(LALMs)的不斷發展,越來越多的模型能夠理解語音和各種聲音。因此,研究人員提出了新的評估基準,以全面評估模型的音頻理解能力。VoiceBench 重點關注模型在不同情境下理解語音的能力,包括基本能力、口語表達和嘈雜環境下的表現評估。AudioBench 整合了多種語音任務(如自動語音識別、語音問答)、聲音任務(如音頻描述、音頻問答)以及與人類語音相關的任務(如口音、年齡和性別)。Air - Bench 和 MMAU 通過加入音樂任務擴展了這一范圍。SD - eval 結合了語音任務和環境聲音任務,使模型能夠理解復雜的混合音頻場景。
多模態生成
多模態生成是多模態推理模型的關鍵能力之一,涵蓋在不同數據類型(如文本、圖像、音頻或視頻)中創建新內容。這種生成能力不僅對創意應用至關重要,而且在模型需要用多模態格式傳達其理解或推理結果的任務中發揮著重要作用。根據模態間信息流動方式和生成輸出的性質,這些任務可分為兩類:(1)跨模態生成,評估模型基于一種模態的輸入生成另一種模態內容的能力;(2)聯合多模態生成,評估模型同時在多種模態中生成內容的能力。
跨模態生成
跨模態生成涉及模型基于一種模態的輸入生成另一種模態的內容。這包括文本到圖像、文本到視頻和文本到語音等任務,要求模型有效地將一種類型的輸入(如文本)映射到另一種形式(如圖像、視頻或語音)。本節探討為評估模型在各種跨模態任務中的性能而開發的數據集和基準測試,重點關注對齊、連貫性和語義生成。
文本到圖像隨著文本到圖像生成(T2I)領域的快速發展,出現了多種數據集和基準測試,專門用于文本到圖像生成、編輯和條件生成等任務。對于文本到圖像生成,數據集如 MSCOCO(30K)、CC12M 和 Flickr30k 提供了大規模的通用圖像 - 文本對,強調日常場景和對象。相比之下,數據集如 RedCaps 和 COMMONPOOL 引入了更復雜的文本描述和更高分辨率的圖像。基準測試如 GenEval 和 ELLA 專注于評估文本到圖像的對齊情況,衡量生成圖像與文本描述的匹配程度。此外,GenAI - Bench 和 T2I - CompBench++ 強調處理復雜提示詞和對象交互的能力,突出有效組合生成和改進語義對齊的需求。
對于文本到圖像編輯,數據集如 MagicBrush、InstructPix2Pix和 HQ - Edit 關注基于指令的編輯,而 HQ - Edit 將任務擴展到高清圖像。UltraEdit和 SEED - Data - Edit 引入了多輪編輯任務,改進了大型語言模型(LLMs)在多輪對話中的訓練。這些數據集評估了圖像編輯的不同需求,MagicBrush 側重于創意方面,而 Emu Edit 則關注高質量編輯中的精準性和連貫性。
對于條件文本到圖像生成,數據集如 ADE20K 和 CocoStuff 提供了詳細的分割圖和場景解析注釋,使模型能夠根據特定場景結構生成圖像。UniControl 引入了更全面的數據,要求模型同時處理多個條件輸入。基準測試如 UniCombine 專注于評估指令執行的完整性、視覺連貫性和與約束的一致性。
文本到視頻在文本到視頻生成領域,高質量的數據集和全面的基準測試對于研究進展至關重要。數據集如 VidGen - 1M 、OpenVid - 1M 和 VidProM 涵蓋了廣泛的視頻內容及其對應的描述性文本。基準測試工具如 AIGCBench 、EvalCrafter 和 VBench 從不同指標(如相關性、連貫性和視覺質量)評估模型。專門的基準測試如 VideoScore 、WorldSimBench 和 WorldScore 將評估擴展到視頻質量和現實世界準確性,其中 VideoScore 評估用戶滿意度。
文本到語音文本到語音(TTS)生成受益于高質量的數據集和基準測試,這些資源推動了大型音頻 - 語言模型(LALM)的發展。早期模型使用合成數據集來評估語音對話能力,采用如 LlaMA - Questions 、Web Questions 和 Trivia QA 等數據集,評估基于詞錯誤率和文本與音頻輸出之間的一致性。最近的基準測試如 ADU - Bench 評估了語音對話能力,涵蓋常規、專業、多語言和模糊場景,而 URO - Bench 包括語音風格的評估,如語調和情感。
機器人在機器人領域,數據集和基準測試為模型提供了高保真度的多模態環境,以評估其在如自動駕駛等任務中的性能。數據集如 ThreeDWorld 和 GAIA - 1 提供了用于機器人任務(如自動駕駛)的交互式模擬平臺。在基準測試方面,Genesis 提供了標準化的評估框架,用于跨多種機器人任務評估模型,確保其在現實世界中的適用性。
聯合多模態生成
聯合多模態生成涉及同時在多種模態中創建內容,例如生成文本和圖像或結合文本、音頻和視頻以產生連貫的輸出。這增加了額外的復雜性,因為模型必須確保生成模態之間的連貫性和一致性。為此,開發了專門的數據集和基準測試,為模型創建與上下文相關的多模態輸出提供了豐富的訓練環境。
文本到交錯圖像 - 文本近年來,多模態大型語言模型(MLLM)的發展顯著推進了交錯圖像 - 文本生成。數據集如 MM - Interleaved 和 ANOLE 通過提供高質量的標注圖像 - 文本對支持模型訓練。這些數據集強調模型生成與上下文相關且視覺連貫內容的必要性。基準測試如 InterleavedEval 和 OpenLEAF 側重于評估模型生成連貫且一致的圖像 - 文本對的能力,而 OpenING 提供了更多樣化的任務以評估交錯圖像 - 文本生成。
文本到多模態輸出近期在文本到多模態輸出方面的研究通過結合跨模態和聯合多模態數據,增強了多模態生成能力。模型如 NextGPT 和 DreamFactory 采用無訓練的方法,將文本轉化為多模態故事,并結合視頻評估基準如 Vbench。其他模型如 EVA 通過整合具身世界模型,基于文本輸入模擬和預測視頻序列中的事件。
多模態推理
多模態推理超越了簡單的理解或生成,要求模型整合來自多種模態的信息,以進行推斷、解決問題和回答需要對不同類型數據之間的關系有更深入理解的復雜問題。多模態推理模型可分為兩大類:(1)通用視覺推理,評估模型理解視覺內容并運用一般知識、邏輯和常識解決問題的能力;(2)特定領域推理,評估模型在特定領域的專業推理能力,如基于視覺輸入的數學問題解決。
通用視覺推理
通用視覺推理是多模態推理模型中最關鍵的能力之一。它要求模型不僅要感知視覺信息,還要運用廣泛的知識、邏輯推理和常識在各種場景中理解和分析視覺信息。為了嚴格評估這一能力,開發了多種基準測試,每個基準測試都針對視覺推理的不同方面。除了簡單的問答任務(例如 VQA),視覺常識推理基準測試如 VCR 和專門的數據集如 PhysBench 用于物理推理和 VideoPhy 用于理解視頻中的物理常識,這些都挑戰模型運用日常知識解釋視覺情境的能力。
對更廣泛 AI 能力的追求反映在多模態通用智能基準測試中。這些包括全面評估如 MMBench(涵蓋多語言方面)、MMMU(跨越不同學科)、AGIEval (專注于以人為中心的評估)、VideoVista 和 MMStar (以視頻為中心)。這些基準測試將視覺推理作為與其他模態和任務相結合的關鍵組成部分。此外,對圖表和結構化視覺的理解至關重要,基準測試如 AI2D 和 InfographicVQA 挑戰模型解釋空間布局、理解關系并從圖表、圖表和信息圖中提取信息的能力。
這些基準測試的一個關鍵組成部分是用于訓練和評估模型的數據集。例如,SWAG 是為了訓練模型預測視覺場景中可能的動作延續。LLava - CoT 數據集 通過整合大型語言模型,使模型能夠進行視覺常識推理。CLEVR 挑戰模型在日常對象的合成圖像上進行復雜推理。其他數據集如 Mulberry - 260K 和 ShareGPT4oReasoning 進一步訓練模型進行視覺常識推理和多模態對話。
Video - R1 - data 幫助訓練模型在視頻序列中推理動態視覺內容。最后,Visual - CoT 支持需要視覺理解和推理的各種任務的模型訓練。隨著這些基準測試和數據集不斷發展和演變,它們對于推進多模態推理模型至關重要。
特定領域推理
特定領域推理基準測試在評估多模態模型在特定領域的專業推理能力方面發揮著關鍵作用,例如基于視覺輸入的數學問題解決。在數學推理方面,數據集如 MathVista 和 MATH - Vision 評估模型在視覺情境中解決數學問題的能力,這需要視覺理解和數學推理相結合。同樣,圖表 QA 和 ScienceQA 專注于特定領域的推理。
在機器人領域,幾個基準測試評估了具身 AI 的不同方面,特別強調推理能力。模擬環境如 Habitat、AI2 - THOR 和 iGibson 要求智能體在復雜的 3D 環境中進行推理,以處理導航、交互和空間理解任務。基準測試如 Isaac Lab 和 ProcTHOR 專注于在多樣化環境中進行操作任務的推理。其他如 WebArena 測試關于網絡內容的推理,而語言引導推理則通過基準測試如 CALVIN 進行評估。
對于物理推理,數據集如 PhysBench、VideoPhy 和 CRAVE 評估模型對視覺和視頻情境中物理定律和常識的理解。最后,基準測試如 GAIA - 1 和 RoboGen 通過評估模型模擬和推理現實世界動態和互動的能力,支持世界模型的開發。
多模態規劃
多模態規劃基準測試對于評估智能體在整合和處理多樣化輸入(如視覺、文本和交互數據)同時執行復雜、多步驟任務方面的能力至關重要。這些基準測試涵蓋了從網絡導航到圖形用戶界面(GUI)、具身環境和開放式模擬等多種挑戰,通過測試規劃、推理和適應性,提供了對智能體能力的全面了解。可以將這些基準測試分為兩個關鍵領域,以突出它們的獨特貢獻和創新。
GUI 導航
GUI 導航基準測試評估智能體在數字界面中規劃和執行任務的能力,這需要強大的視覺 - 語言接地和多步驟推理。例如,WebArena 和 Mind2Web 提供了現實的網絡環境用于導航和信息提取,而 Mind2Web 進一步引入跨網站任務以測試泛化能力。VisualWebBench 推進了視覺密集型規劃,擁有 1.5K 項任務,專注于跨頁面集成和元素定位。Windows Agent Arena 評估了跨應用規劃在桌面環境中的能力,而 Ferret - UI 專注于基于接地 UI 理解執行多步驟指令。WebShop 等基準測試在模擬的電子商務環境中測試視覺 - 語言接地。此外,OSWorld 和 OmniACT 提供了現實桌面操作系統環境,支持跨應用工作流程,如文件操作和數據處理。VisualAgentBench 通過系統性地評估大型多模態模型在 GUI、具身和視覺設計任務中的表現,建立了統一的規劃和行動基準,這得到了 LlamaTouch 等基準測試的補充,后者通過 495 項任務擴展了移動 UI 自動化,測試多步驟操作,如應用程序導航。
具身和模擬環境
具身和模擬環境強調在動態、交互式環境中進行規劃,智能體必須適應物理或虛擬世界。例如,MineDojo 在 Minecraft 中提供了一個開放式的基準測試,支持在豐富、交互式環境中對通用智能體進行多樣化任務的訓練和評估。其靈活性支持多模態規劃,用于對象交互、導航和資源管理。MuEP 專注于具身規劃,以視覺 - 語言輸入處理模擬環境中的路徑規劃任務。GVCCI 引入了一個終身學習框架,生成合成數據以增強視覺接地,用于語言引導的機器人操作,無需人類監督即可實現顯著性能提升。BEHAVIOR - 1K 提供了 1,000 項家庭活動的數據集,使機器人能夠通過整合視覺、語義和動作數據規劃復雜任務。Habitat 3.0 推進了在模擬家庭環境中的人 - 機器人協作,支持多模態規劃以用于導航和互動。SAPIEN 提供了高保真度環境,用于基于部件的對象操作,增強機器人規劃的精確度。HomeRobot 及其 OpenVocabManip 基準測試開創了開放詞匯移動操作的先河,結合語言、感知和動作以實現通用任務。HoloAssist 捕捉了以第一人稱視角進行的人 - 機器人互動,促進了現實世界協作任務的規劃。DrivingDojo 在實時駕駛場景中測試動態決策,利用視頻和多智能體數據。最后,V - MAGE 提出了一個基于游戲的評估框架,用于在定位、軌跡跟蹤和視覺記憶等任務中評估多模態大型語言模型(MLLM),提供了量化規劃能力的新方法。
多模態規劃基準測試在評估智能體在多樣化任務中的能力方面取得了顯著進展,從網絡導航到具身環境。然而,挑戰依然存在,如長期規劃、處理噪聲輸入和現實世界適應性。未來的基準測試應關注開放世界環境、實時人類反饋和協作規劃,特別是在多智能體或人類 - AI 場景中。解決這些差距將有助于開發能夠以更大靈活性和泛化能力處理不可預測現實任務的智能體。
評估方法
目前主流的評估方法包括精確 / 模糊匹配、選項匹配、LLM/MLLM 評分和智能體評估。
精確 / 模糊匹配主要用于一般開放式 VQA 任務,包括 VQAv2 、OKVQA 等。這些評估數據集通常提供多個由人類標注的候選答案,經過規則處理的預測答案與候選答案進行精確或模糊匹配。最終的評估分數根據特定規則計算。例如,在 VQAv2 評估中,與單一候選答案匹配僅得 1/3 分,與所有三個候選答案匹配才能獲得滿分 1 分;DocVQA 則使用 Levenshtein 距離來衡量預測結果的準確性。
選項匹配由于答案的多樣性,精確和模糊匹配方法往往無法涵蓋所有候選選項。為了確保評估的公平性和準確性,引入了選項匹配方法。在此方法中,系統提示包含幾個候選選項,模型需要從中選擇最合適的一個。此外,為了減少模型在選擇過程中對特定選項的偏好,如 MMBench 等工作采用了 CircularEval 方法,以最小化評估中的隨機變化。
LLM/MLLM 評分盡管選項選擇確保了公平性,但它與開放式問題和現實世界情境的性質相去甚遠。因此,基于 LLM 的評估方法被引入到開放式問題的評估中。此方法將特定提示、問題、標準答案和模型預測輸入到 LLM 或 MLLM(如 GPT - 4o)中,以生成分數。提示通常包括評分指南、參考示例等信息,目的是引導模型提供公平和平衡的分數。
智能體評估在評估過程中,單一模型的能力固有局限性可能導致在處理多樣化多模態信息時的不足。因此,基于智能體的方法可以利用工具來緩解模型本身的限制。例如,CIGEval 通過整合多功能工具箱,擴展了 MLLM 的視覺理解能力,從而實現更精細的評估。此外,多智能體討論在下游任務中被證明是有效的,通過促進共識產生更健壯的解決方案,這種優勢也延伸到了評估場景。利用多個智能體之間的協作或對抗互動來評估輸出的方法,已被證明能夠提供更可靠和可解釋的評估。
總結、感想
本文綜述了多模態推理模型的演變歷程,突出了該領域的關鍵進展和范式轉變。盡管當前模型在視覺問答、視覺數學和視頻理解等任務中展現出了以語言為中心的推理范式的優勢,但在視覺中心的長期推理(例如理解 3D 上下文、處理復雜的視覺信息檢索問題)和交互式多模態推理(例如動態跨模態對話或迭代反饋循環)方面仍有待深入探索。
基于實證評估和實驗,研究者提出了原生大型多模態模型的概念,這些模型超越了以語言為主導的架構。此類模型應著重具備三項核心能力:多模態智能體推理,實現與環境的主動互動(例如,具身 AI 智能體可通過現實世界中的試錯學習進行學習);全模態理解與生成推理,整合任意模態的語義(例如,在視覺、音頻和文本之間對齊抽象概念),同時在復雜的開放世界情境中解決歧義;以及在多模態輸出中生成連貫且與上下文相關的輸出(例如,根據口頭指令生成圖表,或從文本合成視頻敘事)。通過解決這些維度的問題,未來的模型有望實現類似人類的上下文適應性,縮小孤立任務表現與通用現實問題解決之間的差距。
其實相關的綜述,之前還有一篇,感興趣的同學可以對比閱讀《MCoT:讓機器像人類一樣思考 (綜述)》。我在閱讀哈工大深圳校區的這篇論文時(見文末參考)注意到它僅是外部資料的引用就有458篇,素材算較為全面的。看到研究者通過對各個階段代表性模型、方法和實驗數據的剖析,我了解到了多模態推理模型在不同階段的特點、優勢與局限性。從早期模塊化推理網絡對感知線索的巧妙利用,到預訓練視覺 - 語言模型在統一表示和融合過程中的關鍵作用;從多模態鏈式思考方法在提升推理深度和可解釋性方面的顯著成效,到強化學習在增強模型推理能力上的獨特魅力,每一個技術節點都在加中多模態在我知識體系中的分量。同時,也讓我深刻認識到當前多模態推理模型在全模態理解和智能體推理方面的不足。
而論文后面提到的原生大型多模態推理模型(N-LMRM)的概念讓我很高興這與自己之前的認知是吻合的,它所提出的多模態智能體推理和全模態理解與生成推理能力,是多模態推理領域為來重要的能力。一個能夠像人類一樣全面感知世界、精準理解各種模態信息,并進行深度推理和決策的智能模型,將在多廣泛的領域帶來變革性的應用,這會推動人工智能技術的邊界。閱讀論文,并輸出此文,真是收獲滿滿。