GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻!北大&字節(jié)提出VAR范式
新一代視覺(jué)生成范式「VAR: Visual Auto Regressive」視覺(jué)自回歸來(lái)了!使 GPT 風(fēng)格的自回歸模型在圖像生成首次超越擴(kuò)散模型,并觀察到與大語(yǔ)言模型相似的 Scaling Laws 縮放定律、Zero-shot Task Generalization 泛化能力:
論文標(biāo)題: "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction"
這項(xiàng)名為 VAR 的新工作由北京大學(xué)和字節(jié)跳動(dòng)的研究者提出,登上了 GitHub 和 Paperwithcode 熱度榜單,并得到大量同行關(guān)注:
目前體驗(yàn)網(wǎng)站、論文、代碼、模型已放出:
- 體驗(yàn)網(wǎng)站:https://var.vision/
- 論文鏈接:https://arxiv.org/abs/2404.02905
- 開(kāi)源代碼:https://github.com/FoundationVision/VAR
- 開(kāi)源模型:https://huggingface.co/FoundationVision/var
背景介紹
在自然語(yǔ)言處理中,以 GPT、LLaMa 系列等大語(yǔ)言模型為例的 Autoregressive 自回歸模型已經(jīng)取得了較大的成功,尤其 Scaling Law 縮放定律和 Zero-shot Task Generalizability 零樣本任務(wù)泛化能力十分亮眼,初步展示出通往「通用人工智能 AGI」的潛力。
然而在圖像生成領(lǐng)域中,自回歸模型卻廣泛落后于擴(kuò)散(Diffusion)模型:近期持續(xù)刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均屬于 Diffusion 家族。此外,對(duì)于視覺(jué)生成領(lǐng)域是否存在「Scaling Law 縮放定律」仍未知,即測(cè)試集損失是否隨模型或訓(xùn)練開(kāi)銷(xiāo)增長(zhǎng)而呈現(xiàn)出可預(yù)測(cè)的冪律 (Power-law) 下降趨勢(shì)仍待探索。
GPT 形式自回歸模型的強(qiáng)大能力與 Scaling Law,在圖像生成領(lǐng)域,似乎被「鎖」住了:
自回歸模型在生成效果榜單上落后于一眾 Diffusion 模型
劍指「解鎖」自回歸模型的能力和 Scaling Laws,研究團(tuán)隊(duì)從圖像模態(tài)內(nèi)在本質(zhì)出發(fā),模仿人類(lèi)處理圖像的邏輯順序,提出一套全新的「視覺(jué)自回歸」生成范式:VAR, Visual AutoRegressive Modeling,首次使得 GPT 風(fēng)格的自回歸視覺(jué)生成,在效果、速度、Scaling 能力多方面超越 Diffusion,并迎來(lái)了視覺(jué)生成領(lǐng)域的 Scaling Laws:
VAR 方法核心:模仿人類(lèi)視覺(jué),重新定義圖像自回歸順序
人類(lèi)在感知圖像或進(jìn)行繪畫(huà)時(shí),往往先概覽全局、再深入細(xì)節(jié)。這種由粗到細(xì)、從把握整體到精調(diào)局部的思想非常自然:
人類(lèi)感知圖片(左)與創(chuàng)作畫(huà)作(右)由粗到細(xì)的邏輯順序
然而,傳統(tǒng)的圖像自回歸(AR)卻使用一種不符合人類(lèi)直覺(jué)(但適合計(jì)算機(jī)處理)的順序,即自上而下、逐行掃描的光柵順序(或稱(chēng) raster-scan 順序),來(lái)逐個(gè)預(yù)測(cè)圖像 token:
VAR 則「以人為本」,模仿人感知或人創(chuàng)造圖像的邏輯順序,使用從整體到細(xì)節(jié)的多尺度順序逐漸生成 token map:
除了更自然、更符合人類(lèi)直覺(jué),VAR 帶來(lái)的另一個(gè)顯著優(yōu)勢(shì)是大幅提高了生成速度:在自回歸的每一步(每一個(gè)尺度內(nèi)部),所有圖像 token 是一次性并行生成的;跨尺度則是自回歸的。這使得在模型參數(shù)和圖片尺寸相當(dāng)?shù)那闆r下,VAR 能比傳統(tǒng) AR 快數(shù)十倍。此外,在實(shí)驗(yàn)中作者也觀察到 VAR 相比 AR 展現(xiàn)出更強(qiáng)的性能和 Scaling 能力。
VAR 方法細(xì)節(jié):兩階段訓(xùn)練
VAR 在第一階段訓(xùn)練一個(gè)多尺度量化自動(dòng)編碼器(Multi-scale VQVAE),在第二階段訓(xùn)練一個(gè)與 GPT-2 結(jié)構(gòu)一致(結(jié)合使用 AdaLN)的自回歸 Transformer。
如左圖所示,VQVAE 的訓(xùn)練前傳細(xì)節(jié)如下:
- 離散編碼:編碼器將圖片轉(zhuǎn)化為離散 token map R=(r1, r2, ..., rk),分辨率從小到大
- 連續(xù)化:r1 至 rk 先通過(guò)嵌入層轉(zhuǎn)換為連續(xù) feature map,再統(tǒng)一插值到 rk 對(duì)應(yīng)最大分辨率,并求和
- 連續(xù)解碼:求和后的 feature map 經(jīng)過(guò)解碼器得到重建圖片,并通過(guò)重建 + 感知 + 對(duì)抗三個(gè)損失混合訓(xùn)練
如右圖所示,在 VQVAE 訓(xùn)練結(jié)束后,會(huì)進(jìn)行第二階段的自回歸 Transformer 訓(xùn)練:
- 自回歸第一步是通過(guò)起始 token [S] 預(yù)測(cè)最初的1x1token map
- 隨后每一步,VAR 都基于歷史所有的 token map 去預(yù)測(cè)下一個(gè)更大尺度的 token map
- 訓(xùn)練階段,VAR 使用標(biāo)準(zhǔn)的交叉熵?fù)p失監(jiān)督這些 token map 的概率預(yù)測(cè)
- 測(cè)試階段,采樣得到的 token map 會(huì)借助 VQVAE 進(jìn)行連續(xù)化、插值求和、解碼,從而得到最終生成的圖像
作者表示,VAR 的自回歸框架是全新的,而具體技術(shù)方面則吸收了 RQ-VAE 的殘差 VAE、StyleGAN 與 DiT 的 AdaLN、PGGAN 的 progressive training 等一系列經(jīng)典技術(shù)的長(zhǎng)處。VAR 實(shí)際是站在巨人的肩膀上,聚焦于自回歸算法本身的創(chuàng)新。
實(shí)驗(yàn)效果對(duì)比
VAR 在 Conditional ImageNet 256x256 和 512x512 上進(jìn)行實(shí)驗(yàn):
- VAR 大幅提升了 AR 的效果,一轉(zhuǎn) AR 落后于 Diffusion的局面
- VAR 僅需10 步自回歸步驟,生成速度大幅超過(guò) AR、Diffusion,甚至逼近 GAN 的高效率
- 通過(guò)Scale upVAR 直至2B/3B,VAR 達(dá)到了 SOTA 水平,展現(xiàn)出一個(gè)全新的、有潛力的生成模型家族。
令人關(guān)注的是,通過(guò)與 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer(DiT)對(duì)比,VAR 展現(xiàn)出了:
- 更好效果:經(jīng)過(guò)scale up,VAR 最終達(dá)到 FID=1.80,逼近理論上的 FID 下限 1.78(ImageNet validation set),顯著優(yōu)于 DiT 最優(yōu)的 2.10
- 更快速度:VAR 只需不到0.3 秒即可生成一張 256 圖像,速度是 DiT 的45 倍;在 512 上更是 DiT 的81 倍
- 更好 Scaling能力:如左圖所示,DiT 大模型在增長(zhǎng)至 3B、7B 后體現(xiàn)出飽和現(xiàn)象,無(wú)法靠近 FID 下限;而 VAR 經(jīng)過(guò)縮放到 20 億參數(shù),性能不斷提升,最終觸及 FID 下限
- 更高效的數(shù)據(jù)利用:VAR 僅需350epoch 訓(xùn)練即超過(guò) DiT1400epoch 訓(xùn)練
這些比 DiT 更高效、更高速、更可擴(kuò)放的證據(jù)為新一代視覺(jué)生成的基礎(chǔ)架構(gòu)路徑帶來(lái)了更多可能性。
Scaling Law 實(shí)驗(yàn)
Scaling law 可謂是大語(yǔ)言模型的「皇冠明珠」。相關(guān)研究已經(jīng)確定,在 Scale up 自回歸大型語(yǔ)言模型過(guò)程中,測(cè)試集上的交叉熵?fù)p失 L,會(huì)隨著模型參數(shù)量 N、訓(xùn)練 token 個(gè)數(shù) T,以及計(jì)算開(kāi)銷(xiāo) Cmin 進(jìn)行可預(yù)測(cè)的降低,呈現(xiàn)出冪律(Power-law)關(guān)系。
Scaling law 不僅使根據(jù)小模型預(yù)測(cè)大模型性能成為可能,節(jié)省了計(jì)算開(kāi)銷(xiāo)和資源分配,也體現(xiàn)出自回歸 AR 模型強(qiáng)大的學(xué)習(xí)能力,測(cè)試集性能隨著 N、T、Cmin 增長(zhǎng)。
通過(guò)實(shí)驗(yàn),研究者觀察到了 VAR 展現(xiàn)出與 LLM 幾乎完全一致的冪律 Scaling Law:研究者訓(xùn)練了 12 種大小的模型,縮放模型參數(shù)量從 1800 萬(wàn)到 20 億,總計(jì)算量橫跨 6 個(gè)數(shù)量級(jí),最大總 token 數(shù)達(dá)到 3050 億,并觀察到測(cè)試集損失 L 或測(cè)試集錯(cuò)誤率 與 N 之間、L 與 Cmin 之間展現(xiàn)出平滑的的冪律關(guān)系,并擬合良好:
在 scale-up 模型參數(shù)和計(jì)算量過(guò)程中,模型的生成能力可見(jiàn)得到逐步提升(例如下方示波器條紋):
Zero-shot 實(shí)驗(yàn)
得益于自回歸模型能夠使用 Teacher-forcing 機(jī)制強(qiáng)行指定部分 token 不變的這一優(yōu)良性質(zhì),VAR 也展現(xiàn)出一定的零樣本任務(wù)泛化能力。在條件生成任務(wù)上訓(xùn)練好的 VAR Transformer,不通過(guò)任何微調(diào)即可零樣本泛化到一些生成式任務(wù)中,例如圖像補(bǔ)全(inpainting)、圖像外插(outpainting)、圖像編輯(class-condition editing),并取得一定效果:
結(jié)論
VAR 為如何定義圖像的自回歸順序提供了一個(gè)全新的視角,即由粗到細(xì)、由全局輪廓到局部精調(diào)的順序。在符合直覺(jué)的同時(shí),這樣的自回歸算法帶來(lái)了很好的效果:VAR 顯著提升自回歸模型的速度和生成質(zhì)量,在多方面使得自回歸模型首次超越擴(kuò)散模型。同時(shí) VAR 展現(xiàn)出類(lèi)似 LLM 的 Scaling Laws、Zero-shot Generalizability。作者們希望 VAR 的思想、實(shí)驗(yàn)結(jié)論、開(kāi)源,能夠貢獻(xiàn)社區(qū)探索自回歸范式在圖像生成領(lǐng)域的使用,并促進(jìn)未來(lái)基于自回歸的統(tǒng)一多模態(tài)算法的發(fā)展。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
