成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

13.8倍吞吐提升!浙大上海AI Lab等提出視覺生成新范式,從“下一個token”到“下一個鄰域”

人工智能 新聞
來自浙大、上海AI Lab等機構的研究人員提出了一種全新的視覺生成范式——鄰近自回歸建模(Neighboring Autoregressive Modeling, NAR)。

在圖像/視頻生成任務中,傳統的“下一個token預測”方法正面臨嚴重的效率瓶頸。

怎么辦?

來自浙大、上海AI Lab等機構的研究人員提出了一種全新的視覺生成范式——鄰近自回歸建模(Neighboring Autoregressive Modeling, NAR)。與傳統的“下一個token預測”不同,NAR模型采用了“下一個鄰域預測”的機制,將視覺生成過程視為一種逐步擴展的“外繪”過程。

圖片

具體來說,NAR模型從初始token開始,按照與初始token的曼哈頓距離從小到大依次生成token。這種生成順序不僅保留了視覺內容的空間和時間局部性,還允許模型在生成過程中并行預測多個相鄰的token。

為了實現這一點,研究人員引入了維度導向的解碼頭,每個頭負責在空間或時間的一個正交維度上預測下一個token。

通過這種方式,NAR模型能夠在每一步中并行生成多個token,從而大幅減少了生成所需的模型前向計算步驟。

圖片

下面具體來看。

從“下一個token”到“下一個鄰域”

在當今的AI領域,視覺生成任務(如圖像和視頻生成)正變得越來越重要。無論是生成逼真的圖像,還是創造連貫的視頻,AI模型的表現都在不斷提升。

圖片

然而,現有的視覺生成模型,尤其是基于自回歸(Autoregressive, AR)的模型,面臨著嚴重的效率瓶頸

傳統的自回歸模型通常采用“下一個token預測”的范式,即按照光柵順序逐個生成圖像或視頻的token。這種方法雖然簡單直觀,但在生成高分辨率圖像或長視頻時,模型需要進行數千次甚至數萬次的前向計算,導致生成速度極其緩慢。

更糟糕的是,現有的加速方法往往以犧牲生成質量為代價。

例如,一些方法嘗試通過并行生成多個token來提高效率,但由于鄰近圖像token之間的強相關性以及上下文信息的缺失,這種方法容易導致生成質量下降。

因此,如何在保持高質量生成的同時,大幅提升生成效率,成為了視覺生成領域的一個關鍵挑戰

圖片

為了解決上述問題,研究人員提出了鄰近自回歸建模(NAR)。

正如一開頭提到的,通過引入維度導向的解碼頭,使每個頭負責在空間或時間的一個正交維度上預測下一個token,最終讓NAR模型能夠在每一步中并行生成多個token,從而大幅減少了生成所需的模型前向計算步驟。

值得一提的是,維度導向的解碼頭設計非常靈活,能夠輕松擴展到更高維的視覺內容生成

例如,在視頻生成任務中,視頻可以被視為三維數據(時間、行、列),NAR模型只需增加一個時間維度的解碼頭,即可在時間、行、列三個正交維度上并行生成token。

對于由 t×n×n 個token表示的視頻,NAR模型僅需 2n+t?2 步即可完成生成過程,遠遠少于傳統“下一個token預測”模型所需的 tn2 步。

這一顯著的效率提升使得NAR模型在處理高分辨率視頻生成任務時具有極大的優勢。

圖片

13.8倍吞吐提升

研究人員在多個視覺生成任務上對NAR模型進行了全面評估,實驗結果令人振奮:

1、類別圖像生成

在ImageNet 256×256數據集上,擁有372M參數的NAR-L取得了比擁有1.4B參數的LlamaGen-XXL更低的FID(3.06 vs. 3.09),同時將生成步數減少了87.8%并帶來了13.8倍的吞吐提升(195.4 images/s vs. 14.1 images/s)。

與VAR-d16模型相比,NAR-M取得了更低的FID的同時(3.27 vs. 3.30),能帶來92%的吞吐提升(248.5 images/s vs. 129.3 images/s)。

這說明與現有的自回歸生成方法相比,NAR模型在生成效率和質量上均取得了顯著提升。

2、類別視頻生成

在UCF-101數據集上,NAR模型相比基于“下一個詞預測”(next-token prediction)的自回歸模型在生成步驟上減少了97.3%。

相比并行解碼方法PAR,NAR在FVD更低的同時將吞吐提升了8.6倍。

這得益于NAR模型在時間維度上的并行生成能力,確保了視頻幀之間的連貫性和高質量生成。

3、文本到圖像生成

在GenEval基準測試中,NAR模型僅使用了0.4%的訓練數據(6M)便獲得了和Stable Diffusion v1.5相持平的綜合得分。

與參數量更大且擁有1.4B訓練數據的Chameleon-7B模型相比,NAR的綜合得分更高(0.43 vs. 0.39)且將吞吐率提高了166倍。

圖片圖片圖片

這些實驗結果不僅證明了NAR模型在生成效率上的巨大優勢,還展示了其在生成質量上的卓越表現。

概括而言,NAR模型為視覺生成任務提供了一種高效且高質量的解決方案,有望在未來的AI應用中發揮重要作用。

更多細節歡迎查閱原論文。

論文地址:
https://www.arxiv.org/abs/2503.10696
項目主頁:
https://yuanyu0.github.io/nar/
代碼地址:
https://github.com/ThisisBillhe/NAR

責任編輯:張燕妮 來源: 量子位
相關推薦

2015-10-29 09:35:12

BAT趨勢數據

2019-03-19 19:19:19

Facebook微信轉型

2014-06-17 10:57:09

2025-06-12 08:15:24

2011-03-17 15:01:11

Oracle

2013-01-17 10:09:50

JavaSpring

2021-08-11 18:23:08

數據平臺IT

2015-08-03 14:06:44

2022-02-13 15:49:15

WebAssemblKubernetes容器

2009-03-28 09:22:12

MID移動OS

2024-06-27 10:37:56

2009-03-10 19:32:09

Linux桌面虛擬化計世觀點

2011-11-01 11:04:20

云計算外包

2020-09-14 13:56:18

Linux卡巴斯基惡意軟件

2018-08-20 20:22:05

區塊鏈互聯網未來

2014-01-23 09:53:36

物聯網云計算

2015-09-21 09:33:08

2019-01-23 11:07:32

蘋果諾基亞iPhone

2022-02-28 00:14:30

人工智能數據機器學習

2019-06-27 08:45:02

區塊鏈加密貨幣DEFI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久里面有精品 | 好姑娘影视在线观看高清 | yiren22 亚洲综合 | av一区二区三区四区 | 91新视频 | 在线中文视频 | caoporn国产精品免费公开 | 国产精品999 | 99热激情| 午夜影视大全 | 亚洲v日韩v综合v精品v | 欧美精品一二三 | 精品国产综合 | 午夜精品久久久久久久久久久久 | 日韩国产三区 | 精品国产欧美一区二区 | 嫩草影院网址 | 久久精品在线 | 久久久入口 | 国产精品波多野结衣 | 欧美日韩一| 亚洲成人一级片 | 国产精品久久久久久中文字 | 精品国产一区一区二区三亚瑟 | 浮生影院免费观看中文版 | 91在线看 | 成人在线h | 欧美成人h版在线观看 | 亚洲欧美在线一区 | 欧美一区二区三区久久精品 | aaaa网站| 久久黄视频 | 狠狠插狠狠操 | 免费麻豆视频 | 免费视频久久久久 | 国产在线一区二 | 久久久精品一区二区 | 91免费入口 | www.亚洲一区 | 久久97精品 | 久久久夜色精品亚洲 |