長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效

發(fā)布于 2025-4-1 00:57

瀏覽

0收藏

1. Long-Context Autoregressive Video Modeling with Next-Frame Prediction

長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效-AI.x社區(qū)

在語言生成領(lǐng)域，長上下文自回歸模型已取得顯著進展，但視頻生成卻一直難以有效利用長時間序列信息。為解決這一難題，我們提出了一種名為Frame AutoRegressive的全新視頻生成方法。。

FAR借鑒了語言模型逐幀學(xué)習(xí)的思路，通過捕捉視頻連續(xù)幀之間的時序因果關(guān)系，顯著提升了模型的收斂效率，表現(xiàn)優(yōu)于現(xiàn)有主流方法（如Token AR和視頻擴散模型）。然而，長視頻生成仍面臨兩大挑戰(zhàn)：一是視頻內(nèi)容存在大量冗余信息，二是隨著視頻時長增加，數(shù)據(jù)量激增導(dǎo)致訓(xùn)練成本飆升。

為突破這些限制，我們進一步提出FlexRoPE技術(shù)。這項創(chuàng)新在推理階段為位置編碼機制（RoPE）添加了靈活的時間衰減功能，使模型能將處理時長外推至原長度的16倍，同時保持計算效率。這意味著我們只需用適配短視頻的上下文長度，就能高效訓(xùn)練長視頻模型。

實驗結(jié)果顯示，F(xiàn)AR在短視頻和長視頻生成中均達到當(dāng)前最優(yōu)水平，為視頻自回歸建模提供了簡單而強大的基線方案。

論文: ??https://arxiv.org/pdf/2503.19325??

2. CoMP: Continual Multimodal Pre-training for Vision Foundation Models

長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效-AI.x社區(qū)

預(yù)訓(xùn)練視覺基礎(chǔ)模型（VFMs）是AI理解圖像的核心工具，但如何讓它們“學(xué)得更好”一直是技術(shù)難點。今天，我們帶來一項創(chuàng)新：通過結(jié)合文本和圖像的持續(xù)訓(xùn)練，讓視覺模型在保持圖像原始分辨率的同時，更精準(zhǔn)地理解多模態(tài)信息。

我們的方法有三大亮點：

1?? 創(chuàng)新訓(xùn)練策略：通過三階段訓(xùn)練，模型不僅能“看懂”圖像，還能通過語言關(guān)聯(lián)優(yōu)化，讓圖像和文本的表達更一致；2?? 性能全面提升：在圖像分類、目標(biāo)分割等任務(wù)中表現(xiàn)顯著提升，甚至在凍結(jié)模型參數(shù)的情況下，依然達到頂尖水平；3?? 實際應(yīng)用突破：例如在圖表理解任務(wù)（ChartQA）中準(zhǔn)確率達66.7%，文檔問答（DocVQA）達75.9%，圖像分類準(zhǔn)確率（ImageNet-1K）更是達到87.4%，分割任務(wù)（ADE20K）表現(xiàn)也刷新紀(jì)錄（mIoU 49.5）。

這意味著什么？通過過持續(xù)優(yōu)化視覺與語言的協(xié)同能力，AI不僅能“看”得更清晰，還能“理解”更深入。

論文: ??https://arxiv.org/pdf/2503.18931??

3. Scaling Vision Pre-Training to 4K Resolution

長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效-AI.x社區(qū)

在日常任務(wù)中，高分辨率感知至關(guān)重要，但目前的視覺預(yù)訓(xùn)練大多局限于低分辨率（例如378 x 378像素），因為處理更大圖像的成本會急劇增加。為了解決這個問題，我們開發(fā)了PS3技術(shù)，它能夠?qū)⒁曈X預(yù)訓(xùn)練擴展到4K分辨率，同時幾乎不增加計算成本。

PS3的核心創(chuàng)新：

局部處理代替全局對比：不同于傳統(tǒng)的全局圖像表示學(xué)習(xí)，PS3專注于選擇性地處理圖像中的關(guān)鍵區(qū)域，并與詳細(xì)的局部描述進行對比，這樣既能捕捉高清細(xì)節(jié)，又能大幅減少計算負(fù)擔(dān)。
智能聚焦：PS3模型能夠在較低分辨率下編碼整個圖像，并根據(jù)文本提示的重要性或相關(guān)性，智能地放大和處理特定的高分辨率區(qū)域。

VILA-HD：更高效、更強大的多模態(tài)模型：

當(dāng)我們把PS3應(yīng)用于多模態(tài)大語言模型（MLLM）時，得到的VILA-HD不僅在高分辨率視覺感知上遠超其他未經(jīng)過高分辨率訓(xùn)練的基線模型（如AnyRes和S^2），而且使用的令牌數(shù)量減少了多達4.3倍。這意味著更高的效率和更低的成本。

性能突破：

性能提升顯著：VILA-HD在多個基準(zhǔn)測試中表現(xiàn)出色，超越了包括NVILA和Qwen2-VL在內(nèi)的先前多模態(tài)LLM。
速度與精度兼顧：特別是在4KPro這個新提出的4K分辨率圖像問答基準(zhǔn)上，VILA-HD相比GPT-4o提高了14.5%的準(zhǔn)確率，比Qwen2-VL提高了3.2%，并且運行速度快了2.96倍。

論文: ??https://arxiv.org/pdf/2503.19903??

4. Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效-AI.x社區(qū)

在圖像和視頻生成領(lǐng)域，如何提高樣本質(zhì)量和更好地滿足用戶需求一直是個挑戰(zhàn)。最近，通過增加計算資源來提升性能的方法（推理時縮放）在大規(guī)模語言模型（LLM）和擴散模型中引起了廣泛關(guān)注。然而，對于同樣流行的流模型來說，由于其確定性的生成過程，現(xiàn)有的高效縮放技術(shù)并不適用。

為了解決這個問題，我們提出了一種新的流模型縮放方法，包括三個創(chuàng)新概念：