多模態訓練后模型能力雪崩,上海AI Lab全面探索MLLM偏好對齊與模態融合
在實際應用過程中,閉源模型(GPT-4o)等在回復的全面性、完備性、美觀性等方面展示出了不俗的表現。
與之相反的是,在General VQA任務上表現最好的開源模型(如InternVL2-78B)在面對開放式、需要知識儲備的問題時,表現不盡人意:
△InternVL2-78B和GPT-4o在回復的完備性和美觀性上有較大差距
上述現象引發了上海交大、上海AI Lab等聯合團隊的思考。
他們首先猜測:MLLM的回復質量下降可能是因為經過了多模態數據訓練之后,LLM本身的能力退化。
因此分別測試了多個主流開源模型在主流的純語言對齊Benchmark(AlignBench/AlpacaEval2/ArenaHard)上的性能:
△得分由Qwen2.5-72B進行judge
結果顯示,經過多模態訓練的大語言模型在語言主觀基準上的性能簡直可以用雪崩來形容。
既然如此,那是不是說,在多模態數據中加入更多更好的語言數據就可以了呢?團隊又進一步做了如下實驗:
采用LLaVA框架,使用最新的語言模型Internlm2.5-7B作為base,用LLaVANext-780k高質量多模態數據作為Baseline。已知在LLaVANext-780k中,包含40k左右的來自ShareGPT的數據。
由于ShareGPT年代較為久遠,所以選擇了最新的兩個開源語言sft數據集,Magpie-LLaMA3.3以及Condor。將原始的ShareGPT數據分別更換為Magpie以及Condor進行了實驗,并在語言對齊基準、多模態對齊基準(WildVison)、General VQA基準(MMVet/MMBench/AI2D/OCRBench)上進行了全面評測:
△為了展示性能差異,此處AlpacaEval2和Arenahard的結果均與GPT3.5進行對比
加入了高質量的語言數據之后,模型在語言基準上的能力確實提升了;但是,無論是多模態主觀對齊還是普通VQA任務,都出現了性能下降的情況。
因此推測:語言數據對多模態對齊能力的影響是十分有限的,在General VQA任務以外,仍然需要帶有開放式問題以及完備回答的多模態訓練數據。
Dataset Construction
基于以上觀察,當前的多模態數據過于看重VQA任務的能力,因此數據面臨答案過于簡短、單一,缺少對預訓練知識的運用與理解的問題。基于以上觀點以及從純語言數據組成中吸取的經驗,團隊提出多模態數據還應包含以下特點:
- 開放式,創造性,需要預訓練知識的問題。
- 全面,完備,美觀,符合指令跟隨的回答。
基于以上兩點提出了OmniAlign-V數據構建Pipeline:
△Pipeline of OmniAlign-V
根據圖片場景,首先將圖片分為自然圖片(Natural)以及信息圖片(Infographic)。鑒于希望得到包含豐富信息的數據,因此首先對自然圖片進行了圖像復雜度以及物體種類數目的兩輪篩選,確保篩選出的圖片具有豐富的語義信息。
其次,將Natural圖片分為Knowledge/Creation/Inferential三類任務,將信息圖片分為Chart/Diagram/Poster/Art四類任務,對不同任務分別應用對應的精心設計的Pipeline以及GPT-4o生成對話數據。而后,對Knowledge/Inferential/Chart分別應用不同的后處理優化,增強了Inferencial和Chart數據的完備性和準確性,在Knowledge基礎上額外添加了Instruction-Following指令,將其作為Instruction-Following任務。最終,OmniAlign-V-SFT包含了205k高質量的多模態數據。
團隊發現OmniAlign-V-SFT中的回復質量較高,很適合作為DPO數據中的positive sample。因此通過對LLaVANext-Internlm2.5-7B模型的輸出應用reject sampling,得到了對應的negative sample,并由此生成了OmniAlign-V-DPO數據集。
此外還發現當前缺少高質量的多模態主觀對齊基準。當前的基準當中面臨圖像質量差,問題模糊/多樣性差等問題。因此構建了MM-AlignBench多模態對齊基準。從經過預篩選的3000+張圖片中人工挑選了252張分布多樣且高質量的圖片,每張圖片以及對應的問題都經過人工審查,確保圖片和任務問題的多樣性以及準確性,合理性。
實驗結果
在LLaVA/LLaVA-Next上分別采用Internlm2.5-7B/Qwen2.5-32B進行了實驗,并在三個多模態對齊基準以及五個主流VQA基準上進行了評測,結果如下:
△SFT多模態評測結果
可以看出,在添加了OmniAlign-V-SFT數據集后,MLLM在三個多模態對齊基準上的表現均有大幅提升;并且在多個General VQA Benchmark上均有不同程度的漲點,尤其是在MMVet和MMMU上漲點十分顯著;LLaVANext-Qwen2.5-32B甚至在MMVet和MMMU上分別增加了+9.2和+5.5。這有力驗證了OmniAlign-V數據集的有效性。
此外還發現,經過OmniAlign-V-SFT訓練后,模型在語言對齊基準上也有一定程度的上漲:
△SFT語言評測結果
這也驗證了,當添加部分高質量的多模態對齊數據后,能夠有效減少LLM在多模態訓練當中面臨的語言能力退化問題。
此外,采用OmniAlign-V-DPO進行DPO訓練后,模型的對齊能力進一步增強:
△DPO實驗結果
實驗結果顯示,當模型完全沒有接受長上下文類似的數據訓練時,在DPO階段應用OmniAlign-V-DPO并不能顯著地提升模型的對齊;而對于經過高質量長上下文訓練的模型而言,OmniAlign-V-DPO可以進一步顯著激發模型的對齊能力。尤其是在經過大規模訓練的開源模型(InternVL2-8B)上,模型的性能提升尤其明顯。
MM-AlignBench已經支持到VLMEvalkit,用于在多個MLLM上進行快捷評測。團隊測試了當前主流MLLM在MM-AlignBench上的結果:
△MM-AlignBench Leaderboard
經過SFT+DPO數據后,LLaVANext-OA-32B-DPO的對齊性能提升明顯,在MMAlignBench上的性能已經超越了QwenVL2-72B。
與此同時也可以看出,即使是QwenVL2-72B和InternVL2-78B,在MMAlignBench上的表現距離閉源模型(GPT/Gemini/Claude Series)也有較大的差距。
進一步對MM-AlignBench和其他General VQA Benchmark計算相關度,SRCC score如下所示:
△MM-AlignBench與其他基準的相關性統計
可以發現,MM-AlignBench 與現有的多模態評測基準(如 MMBench、OCRBench 等 VQA Benchmark)之間的相關性極低,但卻與 MMMU 表現出極高的相關性。作為一項涵蓋大量跨學科任務的評測基準,MMMU 對模型的知識先驗深度和廣度提出了極高的要求。盡管 MMMU 采用選擇題形式,答案具有唯一正確解,而 MM-AlignBench 則以開放式問答為主,兩者的題型設計存在顯著差異,但它們所考察的核心能力卻高度相似。這一現象表明,MM-AlignBench 不僅覆蓋了廣泛的任務領域,還深入挖掘了模型在知識先驗上的表現,進一步驗證了其評測維度的全面性與挑戰性。
Future Work
上述研究不僅深入探討了多模態大語言模型的對齊能力,更引發了作者團隊對一個核心問題的全新思考:
究竟什么才是通向真正模態融合的正確路徑?在多模態微調過程中,大語言模型往往會面臨一個棘手的問題——語言能力的“災難性遺忘”。然而,像GPT-4o等閉源模型卻能夠成功實現文本與圖像模態的深度融合,充分釋放其龐大的預訓練語言知識潛能。這背后的技術路線究竟是如何設計的?又是怎樣做到如此高效且精準的模態融合的?
這些問題無疑為我們指明了未來探索的重要方向。
Paper: https://arxiv.org/abs/2502.18411
Github: https://github.com/PhoenixZ810/OmniAlign-V