九大基準全面領(lǐng)先,性能暴漲10.8%!視覺價值模型VisVM成「圖像描述」新寵
在現(xiàn)代多模態(tài)視覺語言模型(VLM)的發(fā)展中,提高圖像描述的準確性和細節(jié)豐富性始終是一個挑戰(zhàn)。盡管基于大規(guī)模數(shù)據(jù)的訓練極大推動了模型性能,但在實際應(yīng)用中,模型仍面臨識別細微圖像區(qū)域和減少「幻覺」現(xiàn)象的問題。
推理時搜索(inference time search)作為一種提升響應(yīng)質(zhì)量的有效方法,已在大型語言模型中展現(xiàn)出巨大潛力。
O1和QwQ等大語言模型通過在推理階段在語言空間中進行搜索得到更好的回答,在數(shù)學和代碼等任務(wù)中展現(xiàn)了遠超越其他模型的卓越性能。
那么,我們能否同樣通過推理時搜索來提升多模態(tài)視覺語言模型的響應(yīng)質(zhì)量,并減少響應(yīng)中的幻覺呢?答案是是的。
來自馬里蘭大學和微軟的研究團隊提出了視覺價值模型(Vision Value Model, VisVM),通過精確控制搜索過程來顯著提高模型在視覺任務(wù)中的表現(xiàn)。
圖片
論文地址:https://arxiv.org/abs/2412.03704
項目頁面:https://si0wang.github.io/projects/VisVM/
項目代碼:https://github.com/si0wang/VisVM
VisVM是一種價值網(wǎng)絡(luò),可以通過對逐步生成描述性標題提供獎勵信號來指導視覺語言模型(VLM)在推理時的搜索。
模型訓練
VisVM首先使用VLM自身生成多個多樣化的響應(yīng),并將這些響應(yīng)按照句子維度拆分成<current sentence,next sentence>的sentence pair。
對于每一個current sentence使用CLIP model計算這句話和對應(yīng)圖像的cosine similarity作為reward,最后構(gòu)成< current sentence, reward,next sentence, Image>的四元組作為VisVM的訓練數(shù)據(jù)。
VisVM使用強化學習中的時序差分學習(Temporal Difference learning)作為損失函數(shù)進行訓練。這使得VisVM不僅可以評估當前句子與圖像之間的匹配程度,還可以預(yù)測當前句子如何影響未來句子的生成,為搜索提供一個長期價值信號。
VisVM引導下的推理階段搜索:
在訓練好VisVM之后,作者使用VisVM作為獎勵信號來逐步精細化推理過程。這一過程包括以下幾個步驟:
1. 生成多個句子候選:首先,模型會生成多個可能的句子,作為響應(yīng)的候選。
2. 通過VisVM進行評估:接下來,利用VisVM對這些候選句子進行綜合評估,考察其與圖像內(nèi)容的匹配度以及對未來生成句子的潛在影響(句子中包含的幻覺,細致程度等)。
3. 選擇最佳句子:根據(jù)VisVM的評估,從候選中挑選出最優(yōu)的句子來繼續(xù)生成。
相比于直接使用只考慮當前句子與圖像匹配程度的clip分數(shù)作為獎勵信號進行搜索,VisVM可以進一步通過考慮后續(xù)生成的句子中的潛在幻覺來預(yù)測長期價值,使得VisVM能夠避開具有更高幻覺風險的響應(yīng)候選,并生成不易產(chǎn)生幻覺且更詳細的圖像描述。
通過這種迭代的推理過程,VLM能夠構(gòu)建出完整且高質(zhì)量的響應(yīng)序列,有效減少信息遺漏和幻覺錯誤,顯著提升模型的應(yīng)用性能。
實驗
研究人員采用LLaVA-Next-Mistral-7B作為實驗的基礎(chǔ)模型,通過在其encoder的最后一層添加一個線性層作為value head,構(gòu)建了VisVM并基于這個結(jié)構(gòu)使用上文中構(gòu)造的數(shù)據(jù)集與損失函數(shù)進行訓練。
在后續(xù)的實驗中,均使用LLaVA-Next-Mistral-7B作為base model用于生成響應(yīng)。
研究人員首先評估了使用不同解碼方式生成的響應(yīng)質(zhì)量,作者從COCO2017數(shù)據(jù)集中采樣了1000個圖像,并與llava detailed description 數(shù)據(jù)集中用于圖像描述的9個prompt進行了隨機匹配作為測試集用于生成圖像藐視。
分別使用人類評估和GPT-4o評估,將VisVM引導的搜索與其他常規(guī)方法如CLIP-PRM指導搜索、Best-of-N選擇和貪婪解碼得到的圖像描述進行了比較。
結(jié)果表明VisVM在生成圖像描述時不僅細節(jié)更為豐富,產(chǎn)生的幻覺也大幅減少,其生成的描述性內(nèi)容更加受到evaluator的青睞。
尤其是在人類作為評估者的情況下,VisVM引導搜索得到的圖像描述相比于其他三個方法分別取得了66.0%, 63.5%和74.0%的獲勝比率。
圖片
例如,在描述這個場景時,VisVM引導的搜索甚至可以描述出擋風玻璃上的水滴擋住了綠色指示牌,這種細節(jié)在人類標注的時候甚至都難以察覺。展示了視覺價值模型對于細節(jié)描述的強大能力。
圖片
在現(xiàn)有幻覺的benchmark中,研究人員在VLM的inference階段使用了非搜索方式生成響應(yīng)用于評估。
在CHAIR和MMHal兩個用于測試VLM幻覺的benchmark上VisVM引導的搜索取得了顯著優(yōu)于其他方法的效果,展示出減少VLM生成響應(yīng)中的幻覺的強大能力
圖片
并且,作者還進一步探索了了VisVM引導搜索的scaling law,結(jié)果發(fā)現(xiàn)無論是采用VisVM引導的搜索還是CLIP-PRM引導的搜索,隨著搜索步驟大小的增加,模型的性能都會逐步提升。這一現(xiàn)象證明了擴大推理時間的計算量能夠顯著增強VLM的視覺理解能力。
特別值得注意的是,隨著步驟大小的增加,VisVM引導搜索的性能提升速度更快,使得兩種方法之間的性能差距不斷擴大。VisVM在達到與CLIP-PRM相當?shù)男阅軙r,其計算效率幾乎是后者的兩倍。
通過擴大搜索步驟,VisVM不僅能更快地達到理想的性能,還能以更低的計算成本實現(xiàn),這在提升模型處理復雜視覺任務(wù)時尤為重要。
圖片
基于VisVM強大的減少幻覺的能力,作者使用使用LLaVA-NEXT-Mistral-7B作為基礎(chǔ)模型,并利用VisVM作為獎勵信號,搜索生成高質(zhì)量的圖像描述作為監(jiān)督微調(diào)(SFT)數(shù)據(jù),對LLaVA-NEXT-Mistral-7B進行訓練。
在九個理解和幻覺基準上的測試表明,VisVM引導的自我訓練使LLAVA-next-7B的性能平均提升了10.8%,相比于其他搜索方法得到的圖像描述作為訓練數(shù)據(jù)提升顯著。
特別是在提升了視覺理解能力后,VLM的reasoning能力也有所提高,例如MMMU和MathVista兩個benchmark,該結(jié)果進一步展示了VisVM搜索得到的圖像描述質(zhì)量之高。
此外,這也揭示了VisVM在自我訓練框架中的應(yīng)用潛力,僅通過在語言空間中進行高質(zhì)量搜索并進行微調(diào),就能顯著提升原始VLM的視覺理解能力,這一發(fā)現(xiàn)為未來VLM的發(fā)展提供了新的方向和思路。
圖片
圖片
參考資料:https://arxiv.org/abs/2412.03704