長視頻生成新突破!FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效
1. Long-Context Autoregressive Video Modeling with Next-Frame Prediction
在語言生成領(lǐng)域,長上下文自回歸模型已取得顯著進展,但視頻生成卻一直難以有效利用長時間序列信息。為解決這一難題,我們提出了一種名為Frame AutoRegressive的全新視頻生成方法。。
FAR借鑒了語言模型逐幀學(xué)習(xí)的思路,通過捕捉視頻連續(xù)幀之間的時序因果關(guān)系,顯著提升了模型的收斂效率,表現(xiàn)優(yōu)于現(xiàn)有主流方法(如Token AR和視頻擴散模型)。然而,長視頻生成仍面臨兩大挑戰(zhàn):一是視頻內(nèi)容存在大量冗余信息,二是隨著視頻時長增加,數(shù)據(jù)量激增導(dǎo)致訓(xùn)練成本飆升。
為突破這些限制,我們進一步提出FlexRoPE技術(shù)。這項創(chuàng)新在推理階段為位置編碼機制(RoPE)添加了靈活的時間衰減功能,使模型能將處理時長外推至原長度的16倍,同時保持計算效率。這意味著我們只需用適配短視頻的上下文長度,就能高效訓(xùn)練長視頻模型。
實驗結(jié)果顯示,F(xiàn)AR在短視頻和長視頻生成中均達到當(dāng)前最優(yōu)水平,為視頻自回歸建模提供了簡單而強大的基線方案。
論文: ??https://arxiv.org/pdf/2503.19325??
2. CoMP: Continual Multimodal Pre-training for Vision Foundation Models
預(yù)訓(xùn)練視覺基礎(chǔ)模型(VFMs)是AI理解圖像的核心工具,但如何讓它們“學(xué)得更好”一直是技術(shù)難點。今天,我們帶來一項創(chuàng)新:通過結(jié)合文本和圖像的持續(xù)訓(xùn)練,讓視覺模型在保持圖像原始分辨率的同時,更精準(zhǔn)地理解多模態(tài)信息。
我們的方法有三大亮點:
1?? 創(chuàng)新訓(xùn)練策略:通過三階段訓(xùn)練,模型不僅能“看懂”圖像,還能通過語言關(guān)聯(lián)優(yōu)化,讓圖像和文本的表達更一致;2?? 性能全面提升:在圖像分類、目標(biāo)分割等任務(wù)中表現(xiàn)顯著提升,甚至在凍結(jié)模型參數(shù)的情況下,依然達到頂尖水平;3?? 實際應(yīng)用突破:例如在圖表理解任務(wù)(ChartQA)中準(zhǔn)確率達66.7%,文檔問答(DocVQA)達75.9%,圖像分類準(zhǔn)確率(ImageNet-1K)更是達到87.4%,分割任務(wù)(ADE20K)表現(xiàn)也刷新紀(jì)錄(mIoU 49.5)。
這意味著什么?通過過持續(xù)優(yōu)化視覺與語言的協(xié)同能力,AI不僅能“看”得更清晰,還能“理解”更深入。
論文: ??https://arxiv.org/pdf/2503.18931??
3. Scaling Vision Pre-Training to 4K Resolution
在日常任務(wù)中,高分辨率感知至關(guān)重要,但目前的視覺預(yù)訓(xùn)練大多局限于低分辨率(例如378 x 378像素),因為處理更大圖像的成本會急劇增加。為了解決這個問題,我們開發(fā)了PS3技術(shù),它能夠?qū)⒁曈X預(yù)訓(xùn)練擴展到4K分辨率,同時幾乎不增加計算成本。
PS3的核心創(chuàng)新:
- 局部處理代替全局對比:不同于傳統(tǒng)的全局圖像表示學(xué)習(xí),PS3專注于選擇性地處理圖像中的關(guān)鍵區(qū)域,并與詳細(xì)的局部描述進行對比,這樣既能捕捉高清細(xì)節(jié),又能大幅減少計算負(fù)擔(dān)。
- 智能聚焦:PS3模型能夠在較低分辨率下編碼整個圖像,并根據(jù)文本提示的重要性或相關(guān)性,智能地放大和處理特定的高分辨率區(qū)域。
VILA-HD:更高效、更強大的多模態(tài)模型:
當(dāng)我們把PS3應(yīng)用于多模態(tài)大語言模型(MLLM)時,得到的VILA-HD不僅在高分辨率視覺感知上遠超其他未經(jīng)過高分辨率訓(xùn)練的基線模型(如AnyRes和S^2),而且使用的令牌數(shù)量減少了多達4.3倍。這意味著更高的效率和更低的成本。
性能突破:
- 性能提升顯著:VILA-HD在多個基準(zhǔn)測試中表現(xiàn)出色,超越了包括NVILA和Qwen2-VL在內(nèi)的先前多模態(tài)LLM。
- 速度與精度兼顧:特別是在4KPro這個新提出的4K分辨率圖像問答基準(zhǔn)上,VILA-HD相比GPT-4o提高了14.5%的準(zhǔn)確率,比Qwen2-VL提高了3.2%,并且運行速度快了2.96倍。
論文: ??https://arxiv.org/pdf/2503.19903??
4. Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
在圖像和視頻生成領(lǐng)域,如何提高樣本質(zhì)量和更好地滿足用戶需求一直是個挑戰(zhàn)。最近,通過增加計算資源來提升性能的方法(推理時縮放)在大規(guī)模語言模型(LLM)和擴散模型中引起了廣泛關(guān)注。然而,對于同樣流行的流模型來說,由于其確定性的生成過程,現(xiàn)有的高效縮放技術(shù)并不適用。
為了解決這個問題,我們提出了一種新的流模型縮放方法,包括三個創(chuàng)新概念:
- 基于隨機微分方程(SDE)的生成:讓流模型能夠像擴散模型一樣利用粒子采樣,從而加快生成速度并提高效率。
- 插值轉(zhuǎn)換:擴大搜索范圍,增加了樣本多樣性,使得生成的內(nèi)容更加豐富多樣。
- 滾輪預(yù)算強制(RBF):一種智能分配計算資源的方法,在不同的時間步驟間動態(tài)調(diào)整資源使用,以最大化預(yù)算利用效率。
我們的實驗顯示,采用基于SDE的生成,特別是保持方差的插值生成(VP-SDE),可以顯著提升流模型在推理時縮放中的表現(xiàn)。更重要的是,結(jié)合了VP-SDE的RBF方法展現(xiàn)了最佳性能,超越了所有已有的方法。
論文: ???https://arxiv.org/pdf/2503.19385??
本文轉(zhuǎn)載自??AI-PaperDaily??,作者:AI-PaperDaily
