成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式

輕薄滴假象

發(fā)布于 2024-4-15 09:14

瀏覽

0收藏

新一代視覺(jué)生成范式「VAR: Visual Auto Regressive」視覺(jué)自回歸來(lái)了！使 GPT 風(fēng)格的自回歸模型在圖像生成首次超越擴(kuò)散模型，并觀察到與大語(yǔ)言模型相似的 Scaling Laws 縮放定律、Zero-shot Task Generalization 泛化能力：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

論文標(biāo)題: "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction"

這項(xiàng)名為 VAR 的新工作由北京大學(xué)和字節(jié)跳動(dòng)的研究者提出，登上了 GitHub 和 Paperwithcode 熱度榜單，并得到大量同行關(guān)注：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

目前體驗(yàn)網(wǎng)站、論文、代碼、模型已放出：

體驗(yàn)網(wǎng)站：https://var.vision/
論文鏈接：https://arxiv.org/abs/2404.02905
開(kāi)源代碼：https://github.com/FoundationVision/VAR
開(kāi)源模型：https://huggingface.co/FoundationVision/var

背景介紹

在自然語(yǔ)言處理中，以 GPT、LLaMa 系列等大語(yǔ)言模型為例的 Autoregressive 自回歸模型已經(jīng)取得了較大的成功，尤其 Scaling Law 縮放定律和 Zero-shot Task Generalizability 零樣本任務(wù)泛化能力十分亮眼，初步展示出通往「通用人工智能 AGI」的潛力。

然而在圖像生成領(lǐng)域中，自回歸模型卻廣泛落后于擴(kuò)散（Diffusion）模型：近期持續(xù)刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均屬于 Diffusion 家族。此外，對(duì)于視覺(jué)生成領(lǐng)域是否存在「Scaling Law 縮放定律」仍未知，即測(cè)試集損失是否隨模型或訓(xùn)練開(kāi)銷(xiāo)增長(zhǎng)而呈現(xiàn)出可預(yù)測(cè)的冪律 (Power-law) 下降趨勢(shì)仍待探索。

GPT 形式自回歸模型的強(qiáng)大能力與 Scaling Law，在圖像生成領(lǐng)域，似乎被「鎖」住了：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

自回歸模型在生成效果榜單上落后于一眾 Diffusion 模型

劍指「解鎖」自回歸模型的能力和 Scaling Laws，研究團(tuán)隊(duì)從圖像模態(tài)內(nèi)在本質(zhì)出發(fā)，模仿人類(lèi)處理圖像的邏輯順序，提出一套全新的「視覺(jué)自回歸」生成范式：VAR, Visual AutoRegressive Modeling，首次使得 GPT 風(fēng)格的自回歸視覺(jué)生成，在效果、速度、Scaling 能力多方面超越 Diffusion，并迎來(lái)了視覺(jué)生成領(lǐng)域的 Scaling Laws：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

VAR 方法核心：模仿人類(lèi)視覺(jué)，重新定義圖像自回歸順序

人類(lèi)在感知圖像或進(jìn)行繪畫(huà)時(shí)，往往先概覽全局、再深入細(xì)節(jié)。這種由粗到細(xì)、從把握整體到精調(diào)局部的思想非常自然：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

人類(lèi)感知圖片（左）與創(chuàng)作畫(huà)作（右）由粗到細(xì)的邏輯順序

然而，傳統(tǒng)的圖像自回歸（AR）卻使用一種不符合人類(lèi)直覺(jué)（但適合計(jì)算機(jī)處理）的順序，即自上而下、逐行掃描的光柵順序（或稱(chēng) raster-scan 順序），來(lái)逐個(gè)預(yù)測(cè)圖像 token：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

VAR 則「以人為本」，模仿人感知或人創(chuàng)造圖像的邏輯順序，使用從整體到細(xì)節(jié)的多尺度順序逐漸生成 token map：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

除了更自然、更符合人類(lèi)直覺(jué)，VAR 帶來(lái)的另一個(gè)顯著優(yōu)勢(shì)是大幅提高了生成速度：在自回歸的每一步（每一個(gè)尺度內(nèi)部），所有圖像 token 是一次性并行生成的；跨尺度則是自回歸的。這使得在模型參數(shù)和圖片尺寸相當(dāng)?shù)那闆r下，VAR 能比傳統(tǒng) AR 快數(shù)十倍。此外，在實(shí)驗(yàn)中作者也觀察到 VAR 相比 AR 展現(xiàn)出更強(qiáng)的性能和 Scaling 能力。

VAR 方法細(xì)節(jié)：兩階段訓(xùn)練

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

VAR 在第一階段訓(xùn)練一個(gè)多尺度量化自動(dòng)編碼器（Multi-scale VQVAE），在第二階段訓(xùn)練一個(gè)與 GPT-2 結(jié)構(gòu)一致（結(jié)合使用 AdaLN）的自回歸 Transformer。

如左圖所示，VQVAE 的訓(xùn)練前傳細(xì)節(jié)如下：

離散編碼：編碼器將圖片轉(zhuǎn)化為離散 token map R=(r1, r2, ..., rk)，分辨率從小到大
連續(xù)化：r1 至 rk 先通過(guò)嵌入層轉(zhuǎn)換為連續(xù) feature map，再統(tǒng)一插值到 rk 對(duì)應(yīng)最大分辨率，并求和
連續(xù)解碼：求和后的 feature map 經(jīng)過(guò)解碼器得到重建圖片，并通過(guò)重建 + 感知 + 對(duì)抗三個(gè)損失混合訓(xùn)練

如右圖所示，在 VQVAE 訓(xùn)練結(jié)束后，會(huì)進(jìn)行第二階段的自回歸 Transformer 訓(xùn)練：

自回歸第一步是通過(guò)起始 token [S] 預(yù)測(cè)最初的1x1token map
隨后每一步，VAR 都基于歷史所有的 token map 去預(yù)測(cè)下一個(gè)更大尺度的 token map
訓(xùn)練階段，VAR 使用標(biāo)準(zhǔn)的交叉熵?fù)p失監(jiān)督這些 token map 的概率預(yù)測(cè)
測(cè)試階段，采樣得到的 token map 會(huì)借助 VQVAE 進(jìn)行連續(xù)化、插值求和、解碼，從而得到最終生成的圖像

作者表示，VAR 的自回歸框架是全新的，而具體技術(shù)方面則吸收了 RQ-VAE 的殘差 VAE、StyleGAN 與 DiT 的 AdaLN、PGGAN 的 progressive training 等一系列經(jīng)典技術(shù)的長(zhǎng)處。VAR 實(shí)際是站在巨人的肩膀上，聚焦于自回歸算法本身的創(chuàng)新。

實(shí)驗(yàn)效果對(duì)比

VAR 在 Conditional ImageNet 256x256 和 512x512 上進(jìn)行實(shí)驗(yàn)：

VAR 大幅提升了 AR 的效果，一轉(zhuǎn) AR 落后于 Diffusion的局面
VAR 僅需10 步自回歸步驟，生成速度大幅超過(guò) AR、Diffusion，甚至逼近 GAN 的高效率
通過(guò)Scale upVAR 直至2B/3B，VAR 達(dá)到了 SOTA 水平，展現(xiàn)出一個(gè)全新的、有潛力的生成模型家族。

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

令人關(guān)注的是，通過(guò)與 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer（DiT）對(duì)比，VAR 展現(xiàn)出了：

更好效果：經(jīng)過(guò)scale up，VAR 最終達(dá)到 FID=1.80，逼近理論上的 FID 下限 1.78（ImageNet validation set），顯著優(yōu)于 DiT 最優(yōu)的 2.10
更快速度：VAR 只需不到0.3 秒即可生成一張 256 圖像，速度是 DiT 的45 倍；在 512 上更是 DiT 的81 倍
更好 Scaling能力：如左圖所示，DiT 大模型在增長(zhǎng)至 3B、7B 后體現(xiàn)出飽和現(xiàn)象，無(wú)法靠近 FID 下限；而 VAR 經(jīng)過(guò)縮放到 20 億參數(shù)，性能不斷提升，最終觸及 FID 下限
更高效的數(shù)據(jù)利用：VAR 僅需350epoch 訓(xùn)練即超過(guò) DiT1400epoch 訓(xùn)練

這些比 DiT 更高效、更高速、更可擴(kuò)放的證據(jù)為新一代視覺(jué)生成的基礎(chǔ)架構(gòu)路徑帶來(lái)了更多可能性。

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

Scaling Law 實(shí)驗(yàn)

Scaling law 可謂是大語(yǔ)言模型的「皇冠明珠」。相關(guān)研究已經(jīng)確定，在 Scale up 自回歸大型語(yǔ)言模型過(guò)程中，測(cè)試集上的交叉熵?fù)p失 L，會(huì)隨著模型參數(shù)量 N、訓(xùn)練 token 個(gè)數(shù) T，以及計(jì)算開(kāi)銷(xiāo) Cmin 進(jìn)行可預(yù)測(cè)的降低，呈現(xiàn)出冪律（Power-law）關(guān)系。

Scaling law 不僅使根據(jù)小模型預(yù)測(cè)大模型性能成為可能，節(jié)省了計(jì)算開(kāi)銷(xiāo)和資源分配，也體現(xiàn)出自回歸 AR 模型強(qiáng)大的學(xué)習(xí)能力，測(cè)試集性能隨著 N、T、Cmin 增長(zhǎng)。

通過(guò)實(shí)驗(yàn)，研究者觀察到了 VAR 展現(xiàn)出與 LLM 幾乎完全一致的冪律 Scaling Law：研究者訓(xùn)練了 12 種大小的模型，縮放模型參數(shù)量從 1800 萬(wàn)到 20 億，總計(jì)算量橫跨 6 個(gè)數(shù)量級(jí)，最大總 token 數(shù)達(dá)到 3050 億，并觀察到測(cè)試集損失 L 或測(cè)試集錯(cuò)誤率與 N 之間、L 與 Cmin 之間展現(xiàn)出平滑的的冪律關(guān)系，并擬合良好：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

在 scale-up 模型參數(shù)和計(jì)算量過(guò)程中，模型的生成能力可見(jiàn)得到逐步提升（例如下方示波器條紋）：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

Zero-shot 實(shí)驗(yàn)

得益于自回歸模型能夠使用 Teacher-forcing 機(jī)制強(qiáng)行指定部分 token 不變的這一優(yōu)良性質(zhì)，VAR 也展現(xiàn)出一定的零樣本任務(wù)泛化能力。在條件生成任務(wù)上訓(xùn)練好的 VAR Transformer，不通過(guò)任何微調(diào)即可零樣本泛化到一些生成式任務(wù)中，例如圖像補(bǔ)全（inpainting）、圖像外插（outpainting）、圖像編輯（class-condition editing），并取得一定效果：

GPT超越擴(kuò)散、視覺(jué)生成Scaling Law時(shí)刻！北大&字節(jié)提出VAR范式-AI.x社區(qū)

結(jié)論

VAR 為如何定義圖像的自回歸順序提供了一個(gè)全新的視角，即由粗到細(xì)、由全局輪廓到局部精調(diào)的順序。在符合直覺(jué)的同時(shí)，這樣的自回歸算法帶來(lái)了很好的效果：VAR 顯著提升自回歸模型的速度和生成質(zhì)量，在多方面使得自回歸模型首次超越擴(kuò)散模型。同時(shí) VAR 展現(xiàn)出類(lèi)似 LLM 的 Scaling Laws、Zero-shot Generalizability。作者們希望 VAR 的思想、實(shí)驗(yàn)結(jié)論、開(kāi)源，能夠貢獻(xiàn)社區(qū)探索自回歸范式在圖像生成領(lǐng)域的使用，并促進(jìn)未來(lái)基于自回歸的統(tǒng)一多模態(tài)算法的發(fā)展。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/KOEdTgJX4Gga5zRbl57Yow??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer?。?em>北大&字節(jié)）

angel ? 1.3w瀏覽 ? 0回復(fù)
北大字節(jié)開(kāi)辟圖像生成新范式！超越Sora核心組件DiT，不再預(yù)測(cè)下一個(gè)token

Crystalcxt ? 2804瀏覽 ? 0回復(fù)
從80個(gè)模型中構(gòu)建Scaling Law：華人博士生新作，思維鏈提出者力薦

輕薄滴假象 ? 2649瀏覽 ? 0回復(fù)
港大字節(jié)提出多模態(tài)大模型新范式，模擬人類(lèi)先感知后認(rèn)知，精確定位圖中物體

Crystalcxt ? 2634瀏覽 ? 0回復(fù)
不同數(shù)據(jù)集有不同的Scaling law？而你可用一個(gè)壓縮算法來(lái)預(yù)測(cè)它

輕薄滴假象 ? 2470瀏覽 ? 0回復(fù)
字節(jié)豆包、武大提出 CAL：通過(guò)視覺(jué)相關(guān)的 token 增強(qiáng)多模態(tài)對(duì)齊效果

輕薄滴假象 ? 2947瀏覽 ? 0回復(fù)
8B尺寸達(dá)到GPT-4級(jí)性能！北大等提出醫(yī)療專(zhuān)家模型訓(xùn)練方法

duhorse ? 2357瀏覽 ? 0回復(fù)
超越DiffEdit、SDEdit等6大編輯模型！字節(jié)等提出人像服飾、卡通表情編輯新SOTA！

angel ? 2628瀏覽 ? 0回復(fù)
超越CLIP，視覺(jué)大模型訓(xùn)練新范式？

kede96 ? 2375瀏覽 ? 0回復(fù)
首次超越擴(kuò)散模型和非自回歸Transformer模型！字節(jié)開(kāi)源RAR：自回歸生成最新SOTA！

angel ? 2536瀏覽 ? 0回復(fù)
大模型界「摩爾定律」Densing Law 來(lái)了！盲目Scaling將過(guò)時(shí)！

51CTO技術(shù)棧 ? 2288瀏覽 ? 0回復(fù)
視覺(jué)自回歸建模（VAR）：通過(guò)下一尺度預(yù)測(cè)實(shí)現(xiàn)可擴(kuò)展的圖像生成（NIPS2024best)

AIRoobt ? 4121瀏覽 ? 0回復(fù)
看了這么多文章，終于理解了 Scaling Law

芝士AI吃魚(yú) ? 6275瀏覽 ? 0回復(fù)
8卡32B模型超越o1預(yù)覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式

輕薄滴假象 ? 2172瀏覽 ? 0回復(fù)
DeepSeek-R1-Zero激發(fā)了推理Scaling Law

ceesoft ? 2404瀏覽 ? 0回復(fù)
大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

shizhi02 ? 2910瀏覽 ? 0回復(fù)
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技術(shù)棧 ? 2111瀏覽 ? 0回復(fù)
告別粗糙AI生成！BlobCtrl帶你玩轉(zhuǎn)元素級(jí)視覺(jué)編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 1682瀏覽 ? 0回復(fù)
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴(kuò)散架構(gòu)？北大&中山等開(kāi)源GPT-ImgEval

angel ? 2263瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來(lái)了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門(mén)推薦

AI Agents開(kāi)源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開(kāi)源，與o3 相當(dāng)，實(shí)測(cè)來(lái)了 0回復(fù)

上一篇： CVPR 2024 | 僅需文本或圖像提示，新框架CustomNeRF精準(zhǔn)編輯3D場(chǎng)景

下一篇：曾爆火的 InstantID又有了新玩法：風(fēng)格化圖像生成，已開(kāi)源

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：瑟瑟免费视频 | 亚洲欧美在线观看视频 | 久久精品久久精品久久精品 | 欧美精品一区二区在线观看 | 热re99久久精品国99热观看 | 成人午夜看片 | 国产一级一级国产 | 一区二区国产精品 | 亚洲高清在线视频 | 国产aa| 欧美日韩久久 | 亚洲第一天堂 | 不卡一区二区三区四区 | 亚洲精品免费在线 | 国产欧美综合在线 | 亚洲精品一区中文字幕乱码 | 在线视频亚洲 | 91久久久久 | 国产精品国产精品 | 国产精品久久久久久婷婷天堂 | 国产精品一区二区三 | 一区二区三区国产精品 | 欧美色成人| 在线观看中文字幕 | 亚洲精品自在在线观看 | 久久久www成人免费精品 | 蜜桃在线视频 | 羞羞视频免费观看入口 | www.成人.com | 美女在线视频一区二区三区 | 日韩精品电影一区亚洲 | 福利视频网 | 国产亚洲一区二区三区 | 成人一区二区三区 | 欧美精品一区二区免费 | 成人欧美一区二区三区白人 | 亚洲精品免费视频 | 一区二区三区视频在线观看 | 欧美日韩在线精品 | 成年人在线播放 | 国产精品免费一区二区三区四区 |