多模態推理模型綜述;多模態多智能體協同基準;跨模態,跨領域推理能力泛化
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
2025-05-08|HIT, Shenzhen|??79
??http://arxiv.org/abs/2505.04921v1???
???https://huggingface.co/papers/2505.04921???
???https://github.com/HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models??
研究背景與意義
- 智能推理的核心地位:推理作為智能行為的核心,賦予人工智能系統在多變、不確定及多模態環境中做出決策、歸納總結及跨領域泛化的能力。隨著AI應用場景的復雜化,推理能力成為實現魯棒性和適應性的關鍵。
- 多模態推理模型的興起:大型多模態推理模型(LMRMs)通過融合文本、圖像、音頻和視頻等多種模態,實現全面感知、精準理解和深度推理,成為推動AI智能化發展的重要方向。
- 研究現狀與挑戰:從最初的模塊化感知驅動系統到現今語言中心的統一框架,模型推理能力不斷提升,但依然面臨泛化能力不足、推理深度有限及缺乏自主行為等挑戰。
- 研究目標:本文旨在系統梳理多模態推理模型的發展路徑,提出四階段的演進路線圖,并展望原生多模態推理模型(N-LMRMs)的未來發展,為下一代多模態智能系統設計提供理論和實踐指導。
研究方法與創新
- 技術路線概述:研究系統劃分為四個階段:
感知驅動的模塊化推理,基于任務特定的模塊設計;
語言中心的短時推理,利用多模態鏈式思維(MCoT)實現顯式推理步驟;
語言中心的長時推理,融合跨模態推理鏈和強化學習,實現深度思考與計劃;
原生多模態推理模型,構建統一的多模態感知、生成與智能代理體系。
創新點詳解:
- 階段一:感知驅動模塊化設計
采用卷積神經網絡(CNN)、長短時記憶網絡(LSTM)等傳統架構,通過神經模塊網絡(NMN)、層次共注意力(HieCoAtt)等機制,實現視覺與文本的分層對齊與融合,推動任務定制型推理模塊的發展。
- 階段二:語言中心短時推理
利用大型多模態語言模型(MLLMs)和鏈式思維(CoT)技術,將隱式推理轉化為顯式的多步推理過程,提升模型的上下文理解和邏輯推理能力。引入結構化推理和外部工具增強推理范圍和深度。
- 階段三:語言中心長時推理
融合視覺、聽覺與語言多模態信息,構建跨模態推理鏈,支持復雜任務的分解與規劃。通過強化學習等方法增強模型的適應性和自主規劃能力,代表模型如OpenAI的o1系列和DeepSeek-R1。
- 階段四:原生多模態推理模型展望
提出統一多模態表示空間,支持多樣數據類型的無縫融合與生成,強化模型與動態環境的交互能力,實現多模態智能代理的主動認知和長時規劃,推動AI系統向更高層次智能邁進。
理論基礎與對比:
本文基于認知科學中系統1(快速直覺)與系統2(慢速思考)理論,結合Transformer架構的深度學習技術,系統總結了多模態推理模型從模塊化到端到端統一的演進過程,明確指出當前語言中心模型的局限,為原生多模態模型的提出提供堅實理論支撐。
實驗設計與結果分析
- 實驗設計:
通過對比分析超過540篇相關文獻,結合視覺問答(VQA)、視覺常識推理(VCR)、多模態理解與生成等多種任務和數據集,系統評估不同階段模型的性能表現及適用場景。實驗涵蓋模型架構、推理鏈長度、跨模態融合效果、強化學習優化等多個維度。
- 結果分析:
階段一模型在特定任務上表現穩定,但泛化能力和推理深度受限。
階段二模型通過多模態鏈式思維顯著提升了推理的連貫性和可解釋性,但仍偏向短時、反應式推理。
階段三模型在長時推理、規劃和適應性方面展現出更高的智能水平,尤其在開放環境中的任務表現接近人類水平。
強化學習的引入有效提升了模型的魯棒性和自主決策能力。
原生多模態模型的初步實驗顯示出在多樣模態融合和動態環境交互上的巨大潛力,標志著未來研究的重要方向。
- 統計顯著性與多場景表現:多項基準測試表明,隨著模型階段的遞進,推理準確率和任務完成度呈顯著提升,特別是在復雜、多步驟、多模態融合任務中表現突出。
結論與展望
- 總結貢獻:
本文全面梳理了大型多模態推理模型的發展歷程,提出了從感知驅動模塊化推理到語言中心長時推理,再到原生多模態推理模型的四階段路線圖。系統分析了各階段代表模型的架構創新、推理機制及性能表現,填補了當前領域對多模態推理全景式理解的空白。
- 分析局限:
現有模型多依賴語言中心架構,限制了多樣模態的深度融合與生成能力。推理過程多為靜態鏈式,缺乏與動態環境的實時交互和適應。訓練數據的多樣性和質量、模型的計算效率及可解釋性仍是挑戰。
- 方法展望:
未來研究將聚焦原生多模態推理模型,構建統一的多模態表示與生成框架,強化模型的主動認知與長時規劃能力。結合模擬環境中的閉環訓練,推動模型具備真實世界的適應性和智能代理特性。同時,需發展更豐富的多模態數據集和更完善的評估基準,促進理論與應用的深度融合。
通過這些努力,下一代多模態推理系統有望實現更高層次的智能,推動人工智能在復雜現實場景中的廣泛應用。
On Path to Multimodal Generalist: General-Level and General-Bench
2025-05-07|NUS, NTU, ZJU, KAUST, PKU, HFUT, U Rochester, NJU, WHU, SJTU|??55
??http://arxiv.org/abs/2505.04620v1???
???https://huggingface.co/papers/2505.04620???
???https://generalist.top/??
研究背景與意義
隨著大型語言模型(LLMs)如ChatGPT和LLaMA的出現,NLP領域迎來了革命性進展,這些模型作為通用智能體,能夠處理廣泛的語言任務,極大地推動了人工通用智能(AGI)的實現。人類智能本質上是多模態的,涵蓋語言、視覺、聽覺等多種感知方式,這促使研究者開發多模態大型語言模型(MLLMs),即多模態通用智能體。當前,MLLMs已從單一模態理解發展到跨模態理解、生成乃至編輯,支持多種復雜任務,顯示出向AGI邁進的潛力。
然而,現有的評估方法多停留在單任務性能對比,忽視了多模態智能體應具備的跨任務、跨模態的協同效應(synergy)。簡單地將多個單一任務專家模型集成并不能實現真正的多模態通用智能。本文提出的“General-Level”框架,基于協同效應評估多模態智能體的綜合能力,旨在更準確地反映模型向AGI演進的真實進展。同時,構建了覆蓋700余任務、涉及圖像、視頻、音頻、3D及語言等多模態的“General-Bench”大規模評測基準,填補了現有評測工具的局限,推動多模態智能體的系統性發展。
研究方法與創新
本文創新性地提出了基于協同效應的五級分類體系“General-Level”,系統劃分多模態通用智能體的能力等級,核心在于評估模型在不同任務和模態間的知識遷移與增強能力。具體方法包括:
- 協同效應定義與量化:將協同效應細分為任務間、理解與生成間、以及模態間的協同,逐級遞進,體現智能體綜合能力的提升。
- 層級評分機制:結合多模態任務的表現與超越單一任務專家的能力,設計數學嚴謹的評分體系,確保評分的單調性和公平性,避免簡單任務數量堆砌的偏差。
- 多模態任務覆蓋與權重均衡:針對不同模態任務數量不均的現象,采用模態內均權策略,防止某一模態任務過多導致評分偏頗,促進模型在多模態間均衡發展。
- 協同效應的松弛假設:為解決實際中難以獨立評估任務間聯合分布的問題,提出以超越專家模型表現作為協同效應的間接證據,簡化計算同時保持評估的科學性。
該方法突破了傳統單任務評估的局限,強調模型內在的泛化與遷移能力,推動多模態智能體向真正的通用人工智能邁進。
實驗設計與結果分析
實驗部分基于“General-Bench”基準,涵蓋圖像、視頻、音頻、3D及語言等多模態,包含700余任務和超過32萬實例,系統評測了100余個領先的MLLM系統。主要實驗設計與分析如下:
- 多模態專家與通用模型對比:評測涵蓋專注單一模態的專家模型與支持多模態的通用模型,驗證協同效應對模型性能的影響。
- 層級評分應用:根據General-Level框架,計算各模型在不同協同效應層級的得分,分析模型在任務融合、理解生成協同及模態融合方面的表現。
- 統計顯著性與多場景表現:采用標準統計方法,驗證模型性能差異的顯著性,確保結果的穩健性;并在多種實際應用場景下測試模型的泛化能力。
- 關鍵發現:大部分現有MLLM缺乏跨任務和跨模態的協同能力,甚至頂尖模型如GPT-4V未能達到最高協同等級,顯示實現真正AGI的巨大挑戰。多數模型僅能支持有限的多模態任務,且未能通過非語言模態提升語言智能。
結論與展望
本文提出的General-Level框架及General-Bench基準,為多模態通用智能體的評估提供了科學且細致的標準,強調協同效應作為衡量模型智能水平的核心指標。實驗結果揭示當前多模態模型在協同能力上的不足,指出未來研究需重點突破任務間、理解與生成間及模態間的深度融合與協同。
未來工作將聚焦于:
- 提升跨模態知識遷移能力,實現非語言模態對語言智能的反向促進,推動模型達到更高協同等級。
- 拓展多模態任務與格式支持,增加更多復雜、細粒度的任務,促進模型多樣化能力發展。
- 優化模型架構與訓練策略,強化端到端聯合訓練,提升模型對多模態信息的內在融合與理解。
- 持續完善評測基準,引入更多現實應用場景,確保評測結果的廣泛適用性和指導意義。
該研究為多模態通用智能體的系統研發奠定了堅實基礎,有望加速AGI的實現進程。
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains
2025-05-06|Microsoft|??8
??http://arxiv.org/abs/2505.03981v1???
???https://huggingface.co/papers/2505.03981???
???https://github.com/microsoft/x-reasoner??
研究背景與意義
- 問題定義與現狀
近年來,語言模型在推理能力上取得顯著進展,尤其是專有模型如OpenAI的GPT-4展現了強大的多模態推理能力。然而,現有開源研究多聚焦于文本單一模態的推理,且評測多局限于數學和通用領域任務,缺乏對推理能力跨模態、跨領域泛化性的深入探討。
- 挑戰與目標
多模態推理通常依賴于專門構建的多模態數據集,限制了模型的泛化能力。本文提出核心問題:推理能力是否可以通過通用領域的文本后訓練實現跨模態和跨領域的泛化?目標是設計一種僅基于通用文本數據的后訓練策略,培養具備廣泛適用性的推理能力,降低多模態和領域特定數據的依賴。
- 意義
解決該問題不僅具有理論價值,揭示推理能力的本質和遷移機制,也具備實際意義,通過利用豐富且易獲取的通用文本數據,實現高效且通用的多模態推理模型訓練,推動開源多模態模型的發展。
研究方法與創新
- 技術描述
- 本文提出了X-REASONER,一種基于7B參數規模視覺語言模型的后訓練方案,完全依賴通用領域文本數據。訓練分兩階段:
監督微調(SFT):利用蒸餾的長鏈式思維(Long Chain-of-Thought)推理軌跡,進行結構化推理能力的顯式學習。
強化學習(RL):采用帶有可驗證獎勵的強化學習,基于數學文本任務進一步提升模型推理準確性和泛化能力。
- 創新點
驅動的多模態泛化:首次系統驗證僅通過通用文本后訓練,模型即可獲得跨模態(視覺+語言)和跨領域(如醫學)強泛化推理能力。
數學作為泛化“錨點”:數學任務因其復雜的結構化推理特點,被證明是促進推理泛化的關鍵領域。
強結合SFT與RL:結合SFT的穩定性與RL的優化能力,實現了推理性能和泛化性的最佳平衡。
強制退出機制:針對長鏈式思維訓練中模型可能出現的無止境思考問題,設計了基于最大長度的強制停止策略,提升了生成可靠性和任務準確率。
理論基礎研究基于推理能力可視為結構化知識和邏輯模式的學習,長鏈式思維蒸餾與強化學習相結合,有效捕獲和優化推理策略,促進跨任務、跨模態、跨領域的知識遷移。
實驗設計與結果分析
- 實驗設計
數據集:通用領域OpenThoughts-114k(數學、科學、編碼推理)、數學文本數據Orz-57k、醫學文本MedQA及多模態醫學圖像問答等。
評測任務:涵蓋通用文本推理(MMLU-Pro、GSM8K)、多模態推理(MMMU系列、MathVista)、醫學文本及多模態推理任務。
訓練細節:SFT階段4個epoch,RL階段約56小時訓練,使用40GB A100 GPU集群。
- 結果分析
跨模態泛化:X-REASONER在多模態任務上顯著優于同規模多模態訓練模型,證明文 本訓練足以學習泛化推理模式。
跨領域泛化:模型在醫學文本和多模態醫學任務中表現出強勁的遷移能力,且通過醫學 文本繼續訓練的X-REASONER-MED進一步刷新多個醫學基準的SOTA。
方法對比:SFT提升推理結構化能力,RL進一步優化準確率,二者結合效果最佳。數學數據訓練的RL模型在跨領域表現優于醫學數據訓練,顯示數學推理的泛化錨點作用。
消除文本捷徑影響:去除僅靠文本解決的樣本后,X-REASONER仍保持性能優勢,驗證其真實的多模態推理能力。
- 穩定性改進:強制退出機制有效減少無終止生成,提升任務最終準確率。
結論與展望
- 研究貢獻總結本文系統驗證了通用領域文本后訓練能夠培養出具備跨模態、跨領域泛化能力的推理模型,提出了結合長鏈思維蒸餾的監督微調與基于數學任務的強化學習的高效訓練方案,成功構建了X-REASONER及其醫學專用變體X-REASONER-MED,均在多個文本及多模態推理基準上實現或超越了現有SOTA。
- 局限性分析
模型規模受限于7B參數,未驗證更大規模模型的效果。
僅基于Qwen-VL系列模型,缺少多樣化模型架構驗證。
評測任務主要為選擇題和數學推理,缺少開放式生成、交互式對話等更廣泛應用場景的測試。
訓練過程依賴大量計算資源,實際應用可能受限。
- 未來展望
探索更大規模及多樣化模型架構,驗證訓練策略的普適性。
結合多模態及領域特定數據進行持續微調,進一步提升專用領域推理能力。
拓展評測范圍至開放式、多輪交互等復雜推理場景。
優化訓練效率,降低計算資源需求,推動技術普及。
綜上,X-REASONER代表了一種創新且高效的通用文本驅動多模態推理訓練范式,揭示了文本監督在多模態推理泛化中的核心作用,為未來多模態智能系統的發展提供了堅實基礎。
本文轉載自??AI研究前瞻??,作者:胡耀淇
