成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

長視頻生成新突破!FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效

發(fā)布于 2025-4-1 00:57
瀏覽
0收藏

1. Long-Context Autoregressive Video Modeling with Next-Frame Prediction

長視頻生成新突破!FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效-AI.x社區(qū)

在語言生成領(lǐng)域,長上下文自回歸模型已取得顯著進展,但視頻生成卻一直難以有效利用長時間序列信息。為解決這一難題,我們提出了一種名為Frame AutoRegressive的全新視頻生成方法。。

FAR借鑒了語言模型逐幀學(xué)習(xí)的思路,通過捕捉視頻連續(xù)幀之間的時序因果關(guān)系,顯著提升了模型的收斂效率,表現(xiàn)優(yōu)于現(xiàn)有主流方法(如Token AR和視頻擴散模型)。然而,長視頻生成仍面臨兩大挑戰(zhàn):一是視頻內(nèi)容存在大量冗余信息,二是隨著視頻時長增加,數(shù)據(jù)量激增導(dǎo)致訓(xùn)練成本飆升。

為突破這些限制,我們進一步提出FlexRoPE技術(shù)。這項創(chuàng)新在推理階段為位置編碼機制(RoPE)添加了靈活的時間衰減功能,使模型能將處理時長外推至原長度的16倍,同時保持計算效率。這意味著我們只需用適配短視頻的上下文長度,就能高效訓(xùn)練長視頻模型。

實驗結(jié)果顯示,F(xiàn)AR在短視頻和長視頻生成中均達到當(dāng)前最優(yōu)水平,為視頻自回歸建模提供了簡單而強大的基線方案。

論文: ??https://arxiv.org/pdf/2503.19325??

2. CoMP: Continual Multimodal Pre-training for Vision Foundation Models

長視頻生成新突破!FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效-AI.x社區(qū)

預(yù)訓(xùn)練視覺基礎(chǔ)模型(VFMs)是AI理解圖像的核心工具,但如何讓它們“學(xué)得更好”一直是技術(shù)難點。今天,我們帶來一項創(chuàng)新:通過結(jié)合文本和圖像的持續(xù)訓(xùn)練,讓視覺模型在保持圖像原始分辨率的同時,更精準(zhǔn)地理解多模態(tài)信息。

我們的方法有三大亮點:

1?? 創(chuàng)新訓(xùn)練策略:通過三階段訓(xùn)練,模型不僅能“看懂”圖像,還能通過語言關(guān)聯(lián)優(yōu)化,讓圖像和文本的表達更一致;2?? 性能全面提升:在圖像分類、目標(biāo)分割等任務(wù)中表現(xiàn)顯著提升,甚至在凍結(jié)模型參數(shù)的情況下,依然達到頂尖水平;3?? 實際應(yīng)用突破:例如在圖表理解任務(wù)(ChartQA)中準(zhǔn)確率達66.7%,文檔問答(DocVQA)達75.9%,圖像分類準(zhǔn)確率(ImageNet-1K)更是達到87.4%,分割任務(wù)(ADE20K)表現(xiàn)也刷新紀(jì)錄(mIoU 49.5)。

這意味著什么?通過過持續(xù)優(yōu)化視覺與語言的協(xié)同能力,AI不僅能“看”得更清晰,還能“理解”更深入。

論文: ??https://arxiv.org/pdf/2503.18931??

3. Scaling Vision Pre-Training to 4K Resolution

長視頻生成新突破!FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效-AI.x社區(qū)

在日常任務(wù)中,高分辨率感知至關(guān)重要,但目前的視覺預(yù)訓(xùn)練大多局限于低分辨率(例如378 x 378像素),因為處理更大圖像的成本會急劇增加。為了解決這個問題,我們開發(fā)了PS3技術(shù),它能夠?qū)⒁曈X預(yù)訓(xùn)練擴展到4K分辨率,同時幾乎不增加計算成本。

PS3的核心創(chuàng)新:

  • 局部處理代替全局對比:不同于傳統(tǒng)的全局圖像表示學(xué)習(xí),PS3專注于選擇性地處理圖像中的關(guān)鍵區(qū)域,并與詳細(xì)的局部描述進行對比,這樣既能捕捉高清細(xì)節(jié),又能大幅減少計算負(fù)擔(dān)。
  • 智能聚焦:PS3模型能夠在較低分辨率下編碼整個圖像,并根據(jù)文本提示的重要性或相關(guān)性,智能地放大和處理特定的高分辨率區(qū)域。

VILA-HD:更高效、更強大的多模態(tài)模型:

當(dāng)我們把PS3應(yīng)用于多模態(tài)大語言模型(MLLM)時,得到的VILA-HD不僅在高分辨率視覺感知上遠超其他未經(jīng)過高分辨率訓(xùn)練的基線模型(如AnyRes和S^2),而且使用的令牌數(shù)量減少了多達4.3倍。這意味著更高的效率和更低的成本。

性能突破:

  • 性能提升顯著:VILA-HD在多個基準(zhǔn)測試中表現(xiàn)出色,超越了包括NVILA和Qwen2-VL在內(nèi)的先前多模態(tài)LLM。
  • 速度與精度兼顧:特別是在4KPro這個新提出的4K分辨率圖像問答基準(zhǔn)上,VILA-HD相比GPT-4o提高了14.5%的準(zhǔn)確率,比Qwen2-VL提高了3.2%,并且運行速度快了2.96倍。

論文: ??https://arxiv.org/pdf/2503.19903??

4. Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

長視頻生成新突破!FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效-AI.x社區(qū)

在圖像和視頻生成領(lǐng)域,如何提高樣本質(zhì)量和更好地滿足用戶需求一直是個挑戰(zhàn)。最近,通過增加計算資源來提升性能的方法(推理時縮放)在大規(guī)模語言模型(LLM)和擴散模型中引起了廣泛關(guān)注。然而,對于同樣流行的流模型來說,由于其確定性的生成過程,現(xiàn)有的高效縮放技術(shù)并不適用。

為了解決這個問題,我們提出了一種新的流模型縮放方法,包括三個創(chuàng)新概念:

  1. 基于隨機微分方程(SDE)的生成:讓流模型能夠像擴散模型一樣利用粒子采樣,從而加快生成速度并提高效率。
  2. 插值轉(zhuǎn)換:擴大搜索范圍,增加了樣本多樣性,使得生成的內(nèi)容更加豐富多樣。
  3. 滾輪預(yù)算強制(RBF):一種智能分配計算資源的方法,在不同的時間步驟間動態(tài)調(diào)整資源使用,以最大化預(yù)算利用效率。

我們的實驗顯示,采用基于SDE的生成,特別是保持方差的插值生成(VP-SDE),可以顯著提升流模型在推理時縮放中的表現(xiàn)。更重要的是,結(jié)合了VP-SDE的RBF方法展現(xiàn)了最佳性能,超越了所有已有的方法。

論文: ???https://arxiv.org/pdf/2503.19385??

本文轉(zhuǎn)載自??AI-PaperDaily??,作者:AI-PaperDaily

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品揄拍一区二区 | 国产日韩欧美一区 | 日韩成人在线观看 | 亚洲一二三区在线观看 | 午夜寂寞影院在线观看 | 91精产国品一二三区 | 一区二区三区亚洲 | 久久精品中文 | 久久精品亚洲欧美日韩久久 | 精品成人 | 国产精品久久久久久久久久免费 | 日韩精品成人网 | 色综合桃花网 | 久久综合九色综合欧美狠狠 | 91在线看片 | 欧美a区| 91偷拍精品一区二区三区 | 国产精品国色综合久久 | 国产成人免费在线观看 | 黄色大全免费看 | 国产一区二区三区在线观看免费 | 成人免费一区二区三区视频网站 | 嫩草视频免费 | 久久精品一级 | 久久久久www | 日本不卡一区二区三区在线观看 | 国产伦精品一区二区三区高清 | 日韩毛片在线视频 | 国产色黄| 成人国产一区二区三区精品麻豆 | 视频一区 国产精品 | 一本一道久久a久久精品蜜桃 | 中文字幕日韩欧美一区二区三区 | 精品一二区 | 欧美一区视频 | 精品国产乱码久久久久久88av | 自拍偷拍亚洲欧美 | 欧美中国少妇xxx性高请视频 | 国内精品视频在线观看 | 亚洲精品在线免费播放 | 夜夜干夜夜操 |