北航推出全開源TinyLLaVA-Video-R1,小尺寸模型在通用視頻問答數據上也能復現Aha Moment!
當前,基于強化學習提升多模態模型的推理能力已經取得一定的進展。但大多研究者們選擇 7B+ 的模型作為基座,這對于許多資源有限的科研人員而言仍存在顯著的門檻。
同時,在視頻推理領域,由于高質量強推理性數據較為稀少,通用問答數據較難激發模型的深層次邏輯推理能力,因此先前一些初步嘗試的效果大多不盡如人意。
近日,北京航空航天大學的研究團隊推出小尺寸視頻推理模型 TinyLLaVA-Video-R1,其模型權重、代碼以及訓練數據全部開源!
該工作驗證了小尺寸模型在通用問答數據集上進行強化學習也能有不錯的效果,與使用相同數據進行監督微調的模型相比,TinyLLaVA-Video-R1 在多個 benchmark 上都有性能提升。同時,模型還能在訓練與測試的過程中多次展現自我反思與回溯行為!
- 論文標題:TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
- 論文地址:https://arxiv.org/abs/2504.09641
- Github:https://github.com/ZhangXJ199/TinyLLaVA-Video-R1
在推特上,HuggingFace AK 也連續兩次轉發推薦了這篇文章:
為什么選擇 TinyLLaVA-Video 作為 Base Model?
圖表 1 TinyLLaVA-Video 整體框架
雖然現有的開源視頻理解模型基座具有強大的理解與感知能力,但由于其訓練數據不透明,使用開源視頻數據進行后訓練可能會引入不可控的變量,從而影響實驗結果和結論的可靠性。
因此,北航團隊選擇訓練過程完全可溯源的 TinyLLaVA-Video 作為 Base Model,該模型采用 Qwen2.5-3B 作為語言模型,SigLIP 作為視覺編碼器。雖然 TinyLLaVA-Video 僅有 3.6B 的參數,且在預訓練階段為了控制訓練時長并未使用大量數據,但其仍能在多個 Benchmark 上能夠優于現有的多個 7B+ 模型。
TinyLLaVA-Video-R1 主要做了什么?
引入少量人工標注的高質量冷啟動數據
該工作發現,受限于小尺寸模型的能力,當直接使用 TinyLLaVA-Video 作為基礎模型,隨著訓練的進行,模型有一定的概率學會「偷懶」,所有的響應雖然符合格式要求,但并不給出思考過程,響應均為<think> </think> <answer> option </answer>,同時在 Qwen2-VL-2B 上進行實驗也得到相似的實驗現象。
而當使用人工標注的 16 條 CoT 數據為模型進行冷啟動后,在實驗的過程中就不再出現這樣的現象,同時,模型也將更快學會遵守格式要求。因此該工作認為,冷啟動對于小尺寸模型推理是必要的,即使是極少量的冷啟動數據,對于穩定模型訓練也是很有幫助的。
引入長度獎勵與答案錯誤懲罰
現有的許多推理工作僅僅設置格式獎勵而沒有添加長度獎勵,但受限于小尺寸語言模型的能力,在這種設置下進行訓練并不會使模型的響應長度增加,甚至出現一點下降。
在引入連續長度獎勵后,模型的響應長度在訓練過程中顯著增加,如圖所示。然而在這種設置下,模型為了增加響應長度而進行了一些無意義的推理,這不僅沒有提高性能,反而導致訓練時間顯著增加。
因此,TinyLLaVA-Video-R1 進一步將答案錯誤懲罰納入總獎勵,觀察到模型響應的質量有所提升,并且在整個訓練過程中輸出長度和獎勵也能夠保持增長。
為 GRPO 的優勢計算引入微小噪聲
同時,TinyLLaVA-Video-R1 在實驗中也觀察到了優勢消失的問題:當集合中的所有響應都是正確的,并且給予相同的獎勵時,它們計算出的優勢會消失到零。這一現象影響了策略更新,降低了樣本效率。為了最大化對每個樣本的利用,TinyLLaVA-Video-R1 在優勢計算時引入了額外的高斯噪聲,盡管這種噪聲僅引起輕微的擾動,但它能夠確保組內響應優勢的多樣性。
實驗結果
首先,TinyLLaVA-Video-R1 驗證了使用強化學習能夠明顯提升模型性能,與使用相同數據進行監督微調的 TinyLLaVA-Video-SFT 相比,TinyLLaVA-Video-R1 在多個 benchmark 中均有更佳的表現。
同時,TinyLLaVA-Video-R1 能夠理解和分析視頻內容,逐步評估每個選項,并最終給出答案。與僅輸出最終答案的模型相比,該模型能夠生成有意義的思考過程,使其回答更加可解釋且有價值。這也是視頻推理模型相對于傳統視頻理解模型的重要提升與優勢。
與其他使用強化學習提升模型推理能力的工作相似,北航團隊也在 TinyLLaVA-Video-R1 上復現了「Aha Moment」,即模型在思考的過程中引發緊急驗證等行為。實驗結果也驗證了,即使使用弱推理的通用視頻數據對小尺寸模型進行訓練,也能夠引發模型的回溯與自我反思。
后續,北航團隊也將進一步研究小尺寸視頻推理模型,未來工作將包括引入高質量視頻推理數據與強化學習算法改進。
同時,TinyLLaVA 系列項目也始終致力于在有限計算資源下研究小尺寸模型的訓練與設計空間,堅持完全開源原則,完整公開模型權重、源代碼及訓練數據,為資源有限的研究者們理解與探索多模態模型提供平臺。