視覺自回歸建模(VAR):通過下一尺度預測實現可擴展的圖像生成(NIPS2024best) 原創 精華
圖 1:從在 ImageNet 上訓練的視覺自回歸 (VAR) Transformer 生成的樣本。展示了 512×512 的生成樣本(頂部)、256×256 的生成樣本(中部)以及零樣本圖像編輯結果(底部)。
摘要: 我們提出了一種新的生成范式——視覺自回歸建模(VAR),將圖像上的自回歸學習重新定義為從粗到精的“下一尺度預測”或“下一分辨率預測”,區別于傳統的光柵掃描式“下一個標記預測”。這種簡單直觀的方法使自回歸(AR)Transformer能夠更快地學習視覺分布并表現出良好的泛化能力:VAR首次使得類似GPT的AR模型在圖像生成方面超越了擴散Transformer。在ImageNet 256×256基準測試中,VAR顯著提升了AR基線,Fréchet嵌入距離(FID)從18.65降至1.73,嵌入分數(IS)從80.4提升到350.2,同時推理速度提升了20倍。實驗表明,VAR在圖像質量、推理速度、數據效率和可擴展性等多個維度上優于擴散Transformer(DiT)。擴展后的VAR模型表現出類似大型語言模型(LLMs)的清晰冪律擴展規律,相關性系數接近-0.998,提供了有力的實驗證據。此外,VAR在圖像修補、外延和編輯等下游任務中展示了零樣本泛化能力。這些結果表明,VAR初步實現了LLMs的兩個關鍵屬性:擴展規律和零樣本泛化能力。我們已公開所有模型和代碼,以促進AR/VAR模型在視覺生成與統一學習中的探索。
圖 2:標準自回歸建模(AR)與我們提出的視覺自回歸建模(VAR)的對比。
(a) AR 應用于語言:按從左到右逐字生成文本標記;
(b) AR 應用于圖像:按光柵掃描順序(從左到右、從上到下)逐步生成視覺標記;
(c) VAR 應用于圖像:通過多尺度標記映射,從粗到精(低分辨率到高分辨率)自回歸生成標記,各尺度內并行生成標記。VAR 需要多尺度 VQVAE 支持。
1、引言
GPT 系列模型的出現以及更多自回歸 (AR) 大型語言模型 (LLMs) 的發展(如 [65, 66, 15, 62, 1])標志著人工智能領域進入了一個新紀元。這些模型展示了廣泛的智能性和多功能性,盡管存在幻覺等問題 [39],仍被認為是邁向通用人工智能 (AGI) 的堅實一步。這些模型的核心是一種自監督學習策略——預測序列中的下一個標記,這是一種簡單卻深刻的方法。關于這些大型 AR 模型成功的研究強調了它們的兩個關鍵屬性:可擴展性和泛化性。前者(如通過擴展規律 [43, 35])使我們能夠通過小型模型預測大型模型的性能,從而指導更好的資源分配;而后者(如通過零樣本和小樣本學習 [66, 15])展示了通過無監督訓練模型適應多樣化、未見任務的能力。這些屬性表明,AR 模型具有從海量未標注數據中學習的潛力,體現了 AGI 的本質。
與此同時,計算機視覺領域也在努力開發大型自回歸模型或世界模型 [58, 57, 6],試圖模仿其令人印象深刻的可擴展性和泛化性。先鋒性的工作如 VQGAN 和 DALL-E [30, 67] 及其后續研究 [68, 92, 50, 99] 展示了 AR 模型在圖像生成中的潛力。這些模型使用視覺標記器將連續圖像離散化為二維標記網格,然后將其展平為一維序列以進行 AR 學習(如圖 2b 所示),模仿順序語言建模的過程(如圖 2a 所示)。然而,這些模型的擴展規律仍未被充分探索,更令人沮喪的是,它們的性能明顯落后于擴散模型 [63, 3, 51],如圖 3 所示。與 LLM 的顯著成就相比,自回歸模型在計算機視覺中的潛力似乎仍未被完全釋放。
定義數據的生成順序是自回歸建模的必要環節。我們的研究重新思考了如何為圖像定義“順序”:人類通常以一種分層的方式感知或創建圖像,先捕捉整體結構,然后是局部細節。這種多尺度、從粗到精的特性為圖像提供了一種自然的“順序”。此外,受廣泛多尺度設計的啟發 [54, 52, 81, 44],我們將圖像的自回歸學習定義為圖 2c 所示的“下一尺度預測”,從而擺脫傳統的“下一個標記預測”(如圖 2b 所示)。我們的方法首先將圖像編碼為多尺度標記映射。然后,從 1×1 標記圖開始自回歸過程,并逐步擴展分辨率:在每一步中,Transformer 在所有之前生成的基礎上預測下一個更高分辨率的標記圖。我們將這種方法稱為視覺自回歸 (VAR) 建模。
VAR 直接利用類似 GPT-2 的 Transformer 架構 [66] 來進行視覺自回歸學習。在 ImageNet 256×256 基準測試中,VAR 顯著提升了自回歸 (AR) 基線的性能,Fréchet 嵌入距離 (FID) 達到 1.73,嵌入分數 (IS) 達到 350.2,同時推理速度提升了 20 倍(詳細信息見第 7 節)。值得注意的是,VAR 在 FID/IS、數據效率、推理速度和可擴展性方面超越了擴散 Transformer (DiT)——這是如 Stable Diffusion 3.0 和 SORA [29, 14] 等領先擴散系統的基礎。VAR 模型還展示了類似于大型語言模型 (LLMs) 的擴展規律。此外,我們展示了 VAR 在圖像修補、擴展和編輯等任務中的零樣本泛化能力。
總結而言,我們對社區的貢獻包括:
1. 提出了一種基于多尺度自回歸范式和下一尺度預測的新型視覺生成框架,為計算機視覺中的自回歸算法設計提供了新的見解。
2. 對 VAR 模型的擴展規律和零樣本泛化潛力進行了實證驗證,這初步再現了大型語言模型 (LLMs) 的吸引力特性。
3. 在視覺自回歸模型性能上實現了突破,使基于 GPT 風格的自回歸方法首次在圖像合成方面超越強大的擴散模型。
4. 提供了一個全面的開源代碼套件,包括 VQ 標記器和自回歸模型訓練管道,以推動視覺自回歸學習的發展。
2、相關工作
2.1 大型自回歸語言模型的屬性
擴展規律
在自回歸語言模型中發現并研究了擴展規律 [43, 35],這些規律描述了模型規模(或數據集、計算量等)與測試集上的交叉熵損失值之間的冪律關系。擴展規律使我們能夠直接從較小模型預測較大模型的性能 [1],從而優化資源分配。更令人欣慰的是,擴展規律表明,隨著模型規模、數據量和計算量的增長,LLMs 的性能可以很好地擴展并且不會飽和,這被認為是其成功的關鍵因素 [15, 82, 83, 98, 90, 38]。擴展規律的成功也激勵了視覺領域去探索更多類似的方法,用于多模態理解和生成 [53, 2, 88, 27, 96, 77, 21, 23, 41, 31, 32, 80, 87]。
零樣本泛化
零樣本泛化 [72] 指的是一種模型(特別是大型語言模型)的能力,即無需專門訓練即可完成未見任務。在計算機視覺領域,基礎模型的零樣本和上下文學習能力引起了廣泛關注,例如 CLIP [64]、SAM [48] 和 Dinov2 [61]。類似 Painter [89] 和 LVM [6] 的創新工作將視覺提示器 [40, 11] 擴展到了上下文學習領域,以實現視覺領域的上下文學習。
2.2 視覺生成
光柵掃描自回歸模型
用于視覺生成的光柵掃描自回歸模型需要將二維圖像編碼為一維標記序列。早期研究 [20, 84] 顯示了能夠以標準逐行、光柵掃描方式生成 RGB(或分組)像素的能力。[69] 在 [84] 的基礎上,通過多次使用獨立的可訓練網絡實現超分辨率生成。VQGAN [30] 在 [20, 84] 的基礎上進一步發展,通過在 VQVAE 的潛在空間中進行自回歸學習實現了更高效的生成。它采用了類似 GPT-2 的解碼器 Transformer,在光柵掃描順序中生成標記,類似于 ViT [28] 將二維圖像序列化為一維塊。VQVAE-2 [68] 和 RQ-Transformer [50] 也遵循這種光柵掃描方式,但使用了額外的尺度或堆疊的代碼。基于 ViT-VQGAN 架構的 Parti [93] 將 Transformer 擴展到 200 億參數,并在文本到圖像生成中表現出色。
掩碼預測模型
MaskGIT [17] 采用了一個 VQ 自動編碼器和一個類似于 BERT [25, 10, 34] 的掩碼預測 Transformer,通過貪心算法生成 VQ 標記。MagViT [94] 將此方法應用于視頻,MagViT-2 [95] 則通過改進的 VQVAE 對圖像和視頻進行了進一步優化。MUSE [16] 將 MaskGIT 的規模擴展到 30 億參數。
擴散模型
擴散模型的研究集中于改進學習或采樣方法 [76, 75, 55, 56, 7]、指導 [37, 60]、潛在空間學習 [70] 和架構設計 [36, 63, 71, 91]。DiT 和 U-ViT [63, 8] 用 Transformer 替代或集成了 U-Net,并啟發了近期的圖像 [19, 18] 或視頻生成系統 [12, 33],包括 Stable Diffusion 3.0 [29]、SORA [14] 和 Vidu [9]。
備注
另一個相關工作 [95] 名為“語言模型勝過擴散模型”,屬于基于 BERT 風格掩碼預測的模型。
3、方法
3.1 自回歸建模的基礎:通過“下一個標記預測”進行建模
3.2 通過“下一尺度預測”實現視覺自回歸建模
圖 4:VAR 包括兩個獨立的訓練階段。
階段 1:一個多尺度 VQ 自動編碼器將圖像編碼為 K 個標記圖 R=(r1,r2,…,rK),并通過復合損失函數 (5) 進行訓練。關于“多尺度量化”和“嵌入”的詳細信息,請參考算法 1 和算法 2。
階段 2:通過“下一尺度預測” (6) 訓練 VAR Transformer:它將 ([s],r1,r2,…,rK?1)作為輸入,以預測 (r1,r2,r3,…,rK)。在訓練中使用注意力掩碼,以確保每個 rk 只能訪問其前綴 r≤k。訓練中使用標準的交叉熵損失函數。
討論
VAR 解決了之前提到的三大問題:
(1)如果我們約束每個 rk 僅依賴其前綴 r≤k,即生成 rk 的過程完全基于 r≤k,那么數學前提便得以滿足。這種約束是合理的,因為它符合自然的從粗到精的漸進特性,例如人類的視覺感知和藝術創作(如第 1 節所討論)。有關更多細節,請參閱下面的“標記化”部分。
(2)空間局部性得以保留,因為 (i) VAR 中沒有展平操作;(ii) 每個 rk 中的標記是完全相關的。此外,多尺度設計進一步強化了空間結構。
(3)對于一個分辨率為 n×n的潛在圖像,生成過程的復雜性顯著降低至 O(n4)(證明見附錄)。這種效率提升源于每個 rk 內標記的并行生成。
標記化
我們開發了一種新的多尺度量化自動編碼器,將圖像編碼為 K 個多尺度離散標記圖 R=(r1,r2,…,rK),以支持 VAR 的學習(如公式 (6) 所示)。我們采用與 VQGAN [30] 相同的架構,但對多尺度量化層進行了修改。編碼和解碼過程使用了殘差設計,針對特征圖 f 或f^ 的操作詳見算法 1 和算法 2。實驗表明,這種類似于 [50] 的殘差式設計在性能上優于獨立插值方法。算法 1 證明了每個 rk僅依賴其前綴 (r1,r2,…,rk?1)。
需要注意的是,在所有尺度上使用了共享代碼本 Z,確保每個 rk 的標記來自相同的詞匯表 [V]。為了解決將 zk 放大到分辨率 hK×wK 時的信息丟失問題,我們使用了 K個額外的卷積層 。在將 f 下采樣到分辨率 hk×wk 后,未使用額外的卷積操作。
4、實現細節
VAR 標記器
如前所述,我們使用了標準的 VQVAE 架構【30】,并結合了一種多尺度量化方案,增加了 K 個額外的卷積層(增加了約 0.03M 參數)。我們在所有尺度上共享一個代碼本,代碼表大小為 V=4096。按照基線方法【30】,我們的標記器也在 OpenImages 數據集【49】上,通過復合損失函數 (5) 進行訓練,并采用了 16 倍的空間下采樣率。
VAR Transformer
我們的主要研究集中在 VAR 算法,因此模型架構設計保持簡單。我們采用了類似于 GPT-2 和 VQGAN【66, 30】的標準僅解碼 Transformer 架構,結合自適應歸一化 (AdaLN)。這種架構已被廣泛用于許多視覺生成模型中,且證明了其有效性【46, 47, 45, 74, 73, 42, 63, 19】。
對于基于類別條件的圖像生成,我們使用類別嵌入作為起始標記 [s],并作為 AdaLN 的條件輸入。我們發現,在注意力計算前將查詢和鍵歸一化為單位向量,可以穩定訓練過程。
我們沒有使用大規模語言模型中的一些高級技術,例如旋轉位置嵌入 (RoPE)、SwiGLU 多層感知機 (MLP)、或 RMS Norm【82, 83】。
我們的模型形狀遵循一個簡單規則【43】:寬度 w、頭數 h、和丟棄率 dr 隨深度 d 線性擴展:
w=64d,h=d,dr=0.1?d/24
參數計算
一個深度為 d 的 VAR Transformer 的主要參數總數 N 由以下公式給出:
訓練設置
所有模型在相似的設置下進行訓練:
·基礎學習率:10?4(每 256 的批量大小)。
·優化器:AdamW,超參數 β1=0.9,β2=0.95,權重衰減 0.05。
·批量大小:從 768 到 1024。
·訓練輪數:200 至 350(取決于模型規模)。
在第 5 節的評估表明,這種簡單的模型設計具有良好的可擴展性和泛化能力。
廣告
請在微信客戶端打開
抓大鵝
小游戲 益智
玩游戲
5、實驗結果
本節首先在 5.1 中將 VAR 與其他圖像生成模型類別進行比較。關于 VAR 模型的擴展性和泛化能力的評估展示在 5.2 和附錄 6 中。有關實現細節和消融研究,請參閱附錄 4 和 7。
5.1 最先進的圖像生成
設置我們在 ImageNet 數據集的 256×256 和 512×512 條件生成基準上測試了深度分別為 16、20、24 和 30 的 VAR 模型,并將其與現有最先進的圖像生成模型進行比較。在所有基于 VQVAE 的 AR 或 VAR 模型中,VQGAN【30】和我們的模型使用相同的 VQVAE 架構(CNN)和訓練數據(OpenImages【49】),而 ViT-VQGAN【92】使用的是 ViT 自動編碼器,并且與 RQTransformer【50】一樣直接在 ImageNet 上訓練了 VQVAE。結果總結見表 1 和表 2。
整體比較與現有的生成方法(包括生成對抗網絡 GAN、擴散模型 Diffusion、基于 BERT 的掩碼預測模型 Masking,以及基于 GPT 的自回歸模型 AR)相比,我們的視覺自回歸(VAR)模型確立了一種新的模型類別。如表 1 所示,VAR 不僅在 FID 和 IS 指標上表現最佳,而且在圖像生成速度上也具有顯著優勢。此外,VAR 在精度和召回率上也保持了較高的一致性,證實了其語義一致性。這些優勢在 512×512 合成基準上同樣成立(詳見表 2)。值得注意的是,VAR 顯著提高了傳統 AR 的能力。據我們所知,這是自回歸模型首次在圖像質量和多樣性上超越擴散 Transformer,這一里程碑得益于 VAR 在第 3 節中討論的對 AR 局限性的解決方案。
表 1:生成模型家族在類別條件的 ImageNet 256×256 上的比較。“↓” 或 “↑” 表示數值越低或越高越好。評估指標包括 Fréchet 嵌入距離 (FID)、嵌入分數 (IS)、精度 (Pre) 和召回率 (rec)。“#Step” 表示生成一張圖像所需的模型運行次數。推理時間以相對于 VAR 的實測時間表示。帶有后綴 “-re” 的模型使用了拒絕采樣。?:數據來源于 MaskGIT【17】。
效率比較
傳統自回歸 (AR) 模型【30, 68, 92, 50】由于圖像標記的數量與圖像分辨率呈平方關系,計算成本非常高。完整的自回歸生成 n2 個標記需要 O(n2) 次解碼迭代和 O(n6) 的總計算量。相比之下,VAR 僅需要 O(log(n)) 次迭代和 O(n4) 的總計算量。表 1 中報告的實測時間也提供了經驗性證據,表明即使 VAR 的模型參數更多,其速度仍比 VQGAN 和 ViT-VQGAN 快約 20 倍,達到高效 GAN 模型的速度(僅需 1 步即可生成一張圖像)。
與流行的擴散 Transformer 的比較
VAR 模型在多個維度上超越了最近流行的擴散模型 Diffusion Transformer (DiT),后者是最新的 Stable Diffusion 3【29】和 SORA【14】的前身:
(1)圖像生成的多樣性和質量:在 FID 和 IS 指標上,具有 20 億參數的 VAR 始終優于 DiT-XL/2【63】、L-DiT-3B 和 L-DiT-7B【3】。同時,VAR 在精度和召回率上保持了可比水平。
(2)推理速度:DiT-XL/2 的推理時間是 VAR 的 45 倍,而 3B 和 7B 模型的推理成本則遠高于此。
(3)數據效率:VAR 僅需 350 個訓練 epoch,而 DiT-XL/2 需要 1400 個訓練 epoch。
(4)可擴展性:如圖 3 和表 1 所示,DiT 在參數超過 6.75 億時僅獲得了微小甚至負向的增益。而 VAR 的 FID 和 IS 指標持續提升,與第 5.2 節中的擴展規律研究一致。
這些結果表明,VAR 可能是一種比 DiT 等模型更高效且更具可擴展性的圖像生成模型。
5.2 冪律擴展規律
背景先前的研究【43, 35, 38, 1】表明,擴大自回歸大語言模型(LLMs)的規模會導致測試損失 L的可預測下降。這種趨勢與參數數量 N、訓練標記數量 T 和最佳訓練計算量 Cmin 呈冪律關系:
L=(β?X)α
其中 X 可以是 N、T 或 Cmin。指數 α反映了冪律的平滑程度,LL表示歸一化后的可減少損失,標準化為不可減少損失 L∞。通過對數變換,L和 X 的對數之間表現出線性關系:
log(L)=αlog(X)+αlogβ
這些擴展規律不僅驗證了 LLM 的擴展性,還可用于預測更大模型的性能,從而通過小模型性能預測優化資源使用。將這些規律擴展到計算機視覺領域具有重要意義。
VAR 模型的擴展設置
我們按照【43, 35, 38, 1】的協議,驗證 VAR 模型是否符合類似的擴展規律。在 ImageNet 訓練集(包含 1.28M 圖像)上訓練了 12 種不同規模的模型,參數范圍從 18M 到 2B。訓練跨度為 200 至 350 輪,每輪最多處理 3050 億個標記。以下我們重點討論模型參數 N 和在足夠標記數量 T 條件下的最佳訓練計算量 Cmin 所遵循的擴展規律。
模型參數 N 的擴展規律
我們首先研究了隨著 VAR 模型規模增長,測試損失的變化趨勢。對于深度為 d 的 VAR Transformer,其參數數量為 N(d)=73728d3,公式見 (8)。我們將深度 d 從 6 調整到 30,生成了 12 個模型,參數規模從 18.5M 到 2.0B 不等。
圖 5:VAR Transformer 參數規模 N 的擴展規律,包含冪律擬合曲線(虛線)和對應公式(圖例中)。
接近零的冪指數 α 表明,當擴大 VAR Transformer 的規模時,測試損失 L 和標記錯誤率 Err都呈現平滑下降趨勢。坐標軸均為對數刻度。接近 ?0.998 的皮爾遜相關系數表明 log(N) 與log(L) 或 log(Err) 之間具有強線性關系。
我們在 ImageNet 驗證集(50,000 張圖像)【24】上評估了最終的測試交叉熵損失 L 和標記預測錯誤率 Err。我們計算了最后一尺度(最后一次“下一尺度自回歸”步驟)下的 L 和 Err,以及全局平均值。結果如圖 5 所示,我們觀察到 L 作為 N 的函數呈現出明顯的冪律擴展趨勢,與文獻【43, 35, 38, 1】的結論一致。
冪律擴展規律可表示為:
Llast=(2.0?N)?0.23,Lavg=(2.5?N)?0.20.(11)
盡管擴展規律主要在測試損失 LL上研究,我們通過實驗發現標記錯誤率 Err 也表現出類似的冪律趨勢:
Errlast=(4.9?102N)?0.016,Erravg=(6.5?102N)?0.010.
這些結果驗證了 VAR 的強擴展性,即通過增加 VAR Transformer 的規模,模型的測試性能可以持續改進。
最優訓練計算量 Cmin的擴展規律
我們進一步研究了增加訓練計算量 C 時 VAR Transformer 的擴展行為。對于每個模型(共 12 個),我們跟蹤了訓練過程中測試損失 L 和標記錯誤率 Err 隨 C 的變化,計算量以 PFlops(1015 浮點運算每秒)為單位。結果繪制在圖 6 中,我們描繪了 L 和 Err 的帕累托前沿,以突出達到某一損失或錯誤值所需的最優訓練計算量 Cmin。擬合的冪律擴展規律如下:
擬合的 L 和 Err關于 Cmin 的冪律擴展規律如下:
這些關系(公式 14 和 16)在 Cmin范圍內跨越了 6 個數量級,并且我們的發現與文獻【43, 35】一致:在數據充足的情況下,更大的 VAR Transformer 具有更高的計算效率,因為它們可以用更少的計算量達到相同的性能水平。
圖 6:最優訓練計算量 Cmin的擴展規律。線條顏色表示不同的模型規模。紅色虛線為冪律擬合曲線,圖例中標出了對應的公式。坐標軸均為對數刻度。接近 -0.99 的皮爾遜相關系數表明 log(Cmin) 與 log(L) 或 log(Err) 之間存在強線性關系。
5.3 擴展效果的可視化
為了更好地理解 VAR 模型在擴展時的學習過程,我們在圖 7 中比較了 4 種不同規模(深度為 6、16、26、30)的 VAR 模型在 256×256 分辨率上的生成樣本。這些樣本在訓練進度的 20%、60% 和 100% 階段采樣。為確保內容一致性,使用相同的隨機種子和初始標記進行訓練。實驗結果表明,隨著模型規模的擴大,生成圖像的視覺保真度和質量顯著提高,這與冪律規律一致。
圖 7:增加模型規模 NN 和訓練計算量 CC 提高了視覺保真度和一致性。放大可獲得更清晰的視圖。樣本來自 4 種不同規模的 VAR 模型和 3 個不同訓練階段。9 個類別標簽(從左到右,從上到下)分別是:火烈鳥 130、北極狼 270、金剛鸚鵡 88、暹羅貓 284、示波器 688、哈士奇 250、信天翁 146、火山 980 和雙體船 484。
6、零樣本任務泛化
圖像修補和外延我們在 VAR-d30 上進行了測試。在圖像修補和外延任務中,我們使用教師強制(teacher-forcing)的方法,在掩碼外的區域提供真實標記,僅讓模型生成掩碼內的標記。模型中未注入類別標簽信息。結果如圖 8 所示。無需修改網絡架構或調整參數,VAR 在這些下游任務中取得了較好的效果,驗證了 VAR 的泛化能力。
基于類別條件的圖像編輯
參考 MaskGIT【17】,我們同樣測試了 VAR 在基于類別條件的圖像編輯任務中的表現。與修補任務類似,模型在邊界框內僅生成條件于某類別標簽的標記。圖 8 顯示,模型能夠生成與周圍上下文自然融合的合理內容,再次驗證了 VAR 的通用性。
圖 8:在修補、外延和基于類別條件的編輯等下游任務中進行零樣本評估。結果表明,VAR 能夠在無需特殊設計和微調的情況下泛化到新的下游任務。放大可獲得更清晰的視圖。
7、消融研究
在本研究中,我們旨在驗證所提出的 VAR 框架的有效性和效率。結果見表 3。
VAR 的有效性和效率
從由【17】實現的標準自回歸(AR)Transformer 基線開始,我們將其方法替換為我們的 VAR,并保持其他設置不變,得到第 2 行結果。VAR 在推理時鐘時間僅為 AR 模型的 0.013 倍的情況下,將 FID 從 18.65 大幅改善到 5.22,這證明了視覺自回歸模型在性能和效率上的顯著飛躍。
表 3:VAR 的消融研究。前兩行比較了在 AR 和 VAR 算法下訓練的 GPT-2 風格 Transformer(未使用任何附加優化)。后續幾行展示了 VAR 增強組件的影響。
“AdaLN”:自適應層歸一化。
“CFG”:無分類器引導。
“Attn. Norm.”:在注意力機制中將 qq 和 kk 歸一化為單位向量。
“Cost”:相對于基線的推理成本。
“?”:與基線相比的 FID 降低量。
組件消融
我們進一步測試了 VAR 中一些關鍵組件的影響:
·將標準層歸一化(Layer Normalization, LN)替換為自適應層歸一化(Adaptive Layer Normalization, AdaLN),VAR 的 FID 開始超過基線。
·通過使用與基線相似的 top-k 采樣,VAR 的 FID 進一步改善。
·使用無分類器引導(Classifier-Free Guidance, CFG)并將比率設為 2.0,同時在注意力機制前將 qq 和 kk 歸一化為單位向量,我們達到了 3.30 的 FID,比基線低了 15.35,同時推理速度仍然快 45 倍。
·最后,將 VAR 的規模擴展到 20 億參數后,我們實現了 1.73 的 FID,比基線的 FID 提高了 16.85。
8、局限性與未來工作
在本研究中,我們主要專注于學習范式的設計,保持了 VQVAE 的架構和訓練方式與基線【30】一致,以更好地驗證 VAR 框架的有效性。我們認為改進 VQVAE 標記器【99, 59, 95】是增強自回歸生成模型的另一種有前景的方法,這與我們的工作是正交的。我們相信,通過結合最新研究中的先進標記器或采樣技術,VAR 的性能或速度可以進一步提升。
文本提示生成是我們正在進行的研究方向。由于我們的模型在本質上與現代大型語言模型 (LLMs) 相似,因此可以輕松與它們結合,通過編碼器-解碼器架構或上下文方式執行文本到圖像的生成。這是我們當前優先探索的重點方向之一。
視頻生成 在本研究中尚未實現,但它可以自然地進行擴展。通過將多尺度視頻特征視為 3D 金字塔,我們可以提出類似的“3D 下一尺度預測”策略,通過 VAR 生成視頻。與基于擴散的方法(如 SORA【14】)相比,我們的方法在時間一致性或與 LLM 集成方面具有內在優勢,因此有潛力處理更長的時間依賴。這使得 VAR 在視頻生成領域具有競爭力,因為傳統的自回歸模型由于極高的計算復雜性和推理速度慢,在視頻生成中效率極低,生成高分辨率視頻的代價過于昂貴。而 VAR 有能力解決這一問題。因此,我們預見 VAR 模型在視頻生成領域將具有廣闊的發展前景。
9、結論
我們提出了一種新的視覺生成框架,稱為視覺自回歸建模 (VAR),該框架:
1)從理論上解決了標準圖像自回歸 (AR) 模型中固有的一些問題;
2)使基于語言模型的自回歸模型首次在圖像質量、多樣性、數據效率和推理速度方面超越了強大的擴散模型。
當我們將 VAR 擴展到 20 億參數時,觀察到測試性能與模型參數或訓練計算量之間存在明顯的冪律關系,皮爾遜相關系數接近 -0.998,表明這是一個穩健的性能預測框架。這些擴展規律以及零樣本任務泛化的可能性,作為大型語言模型 (LLMs) 的標志性特征,已在我們的 VAR Transformer 模型中得到了初步驗證。
我們希望我們的發現以及開源成果能夠促進自然語言處理領域的重大成功更順暢地整合到計算機視覺中,最終推動強大的多模態智能的發展。
圖 9:標記依賴性可視化。展示了 VQGAN 編碼器最后一個自注意力層中的歸一化注意力分數熱力圖。使用了來自 ImageNet 驗證集的 4 張隨機 256×256 圖像。
本文轉載自公眾號AIRoobt ,作者:AIRoobt
