成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式

發布于 2025-7-14 17:28
瀏覽
0收藏

在自然語言處理中,自回歸建模(Autoregressive Modeling, AR)憑借其 "Next-token Prediction" 的方式,已在GPT、LLaMA等大語言模型中取得了突破性成果。受此啟發,業界開始將自回歸方法從語言遷移到視覺領域,在圖像生成領域(DALL·E、GPT-4o)也表現出了巨大的潛力。相較于基于擴散模型(Diffusion Model)的生成方式,自回歸的方式更加有效地建模多模態信息,同時避免噪聲采樣的隨機性,進而生成更加穩定的結果。


為了將自回歸建模的優勢引入到圖像/視頻超分(Super-resolution, SR)領域,快手音視頻技術部聯合清華大學提出了VARSR算法,開辟了區別于擴散模型的新技術路線,相關成果《Visual Autoregressive Modeling for Image Super-Resolution》已被ICML 2025國際頂級會議接收。 

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

International Conference on Machine Learning(ICML)是機器學習領域的頂級國際會議,與ICLR、NeurIPS共同被稱為三大頂會。其收錄的論文代表了人工智能與機器學習領域的創新技術與重大成果,是該領域學術研究與行業發展的風向標。ICML 2025共收到12,107篇有效投稿,其中有3,260篇論文被接收,接收率為26.9%。



一、背景


圖像超分作為一項核心視覺任務,旨在將低分辨率圖像還原為高清圖像。近年來,隨著生成模型的應用,這一領域取得了飛躍式的發展。當前主流方法大致分為兩類:一類是基于GAN的對抗式方法 [1,2],強調紋理還原,但面臨訓練不穩定和細節真實性不足的問題;另一類是基于Diffusion的擴散模型 [3,4],其借助強大的生成先驗,在細節恢復上展現出驚艷表現。然而,基于AR的建模方式尚未被充分探索。與基于Diffusion的擴散模型相比,AR具有以下幾點優勢:


1. 更加有效建模多模態信息:利用低清圖像、類別/文本描述信息更好地指導生成過程,兼顧生成的真實性與相較于原始信息的保真度;


2. 推理過程更加符合馬爾可夫單向性的假設:在保持語義和結構信息的同時,能夠避免噪聲采樣帶來的隨機性,使得生成結果更加穩定。


因此,將AR應用于超分領域具有顯著潛力。快手在業界首次提出了VARSR算法,對狀態條件引入、空間結構保持、細節紋理提升進行了深入探索,實現了更好、更快的圖像超分效果。

二、方法


ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

圖1:三種不同的自回歸建模形式以及核心模塊(圖片來源 [5]


常用的AR方法為next-token prediction的方式,基于前序的tokens來生成下一個臨近的token:

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

然而,這種對圖像的建模可能會破壞其空間結構,并違背馬爾可夫單向性假設(即圖像的不同區域應該是雙向可見的)。為此,VARSR采用了VAR [6] 提出的next-scale prediction的方式,如圖1所示,將圖像劃分為不同尺度、分辨率下的token maps,并基于前面的尺度對下一尺度的map進行預測:

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

整體架構

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

圖2:VARSR的整體流程

基于生成式模型的圖像超分需要兼顧真實性與保真度,有幾個亟待解決的問題:

1. 如何有效引入低清圖像,高效融合語義信息?

2. 如何建模不同尺度的空間位置,以提高生成圖像的結構穩定性?

3. 如何克服視覺token離散化表示的信息損失,以提高生成高清圖像的保真度?

4. 如何讓模型感知真實圖片與損傷圖片的差異,進而提升生成高清圖像的真實性?


Prefix Tokens


Diffusion方法通常應用ControlNet架構,將低分辨率圖像作為狀態信息引入。然而,直接應用這種方式在自回歸架構中會有兩方面問題:一是帶來額外的計算量;二是控制分支的狀態信息會與前序token/scale的輸入存在沖突。


為了解決第1個問題,我們采用了Prefix Tokens方式來引入低分辨率圖像的狀態信息。如圖2所示,低分辨率圖像經過圖像編碼器映射為tokens map -,在后續的各個尺度預測中進行固定,提升語義融合的效率和一致性。


尺度對齊旋轉位置編碼

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

圖3:尺度對齊旋轉位置編碼及Transformer內部結構


針對問題2,為了確保不同尺度的token信息具有一致的空間位置關系,進而提升生成穩定性,我們提出了尺度對齊旋轉位置編碼(Scale-aligned Rotary Positional Encodings)。對于不同尺度的token,都將其按照在圖像中原始的位置,從二維的兩個方向進行旋轉位置編碼:

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

如圖3所示,這種方式可以確保來自低清圖像的空間結構可以得到有效保持。


量化誤差矯正器


將圖像離散化表示為token的量化過程會導致圖片細節信息丟失,針對上述問題3,我們對量化誤差進行建模,并通過輕量化diffusion模型來模擬,以從噪聲中建模一個連續的概率分布:

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

通過這種方式,我們在最后一個尺度針對預測結果疊加預測的殘差信息,有效提升細節紋理。


圖像質量感知引導

針對上述問題4,在文本生成圖像的模型中常常采用Classifier-free Guidance方式來提升畫質,但這種方式難以準確描述圖片的低質量信息。為了感知圖像中的低質量失真等因素,從而通過引導概率分布生成更具真實性的內容,我們提出了Image-based CFG,在訓練時,將圖像依據其質量劃分為兩類,高質量圖像和低質量圖像分別對應一個positive embedding -和negative embedding -作為控制,分別引導圖像生成高質量和低質量的內容。 


在推理時,我們采用作為控制以生成高質量內容,分布可以寫為:

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

在CFG中,我們通過一個引導超參數來對生成圖像的質量和保真度進行平衡:

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

推理時可以表示為:

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區


高質量圖片數據集

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

圖4:C2I基模型生成效果對比,VARSR的基模型畫質更優


為了進一步提升修復效果的上限,我們收集并過濾構造了包含400萬高質量圖像的訓練數據,分別進行:

(1)VAVQE [7]訓練,提升壓縮重建保真度;

(2)類別生成圖像(Class-to-Image)基模型的預訓練;

(3)并在此基礎上訓練VARSR。如圖4所示,相較于開源的VARSR預訓練模型,VARSR所采用的基模型展現了較強的生成能力。

三、實驗結果

我們在DIV2K、RealSR、DRealSR等多個標準數據集上對VARSR進行評估,并與GAN-based和diffusion-based代表方法進行對比。表1和圖5結果表明:

  • 在無參考IQA指標(MANIQA、CLIPIQA、MUSIQ)上,VARSR在所有數據集均取得絕對領先成績,說明其生成結果更符合人類視覺偏好。
  • 在參考指標(PSNR、SSIM、DISTS)方面,VARSR在保證視覺效果的同時也保持了高還原性,尤其在真實數據集上超越多數擴散方法。
  • VARSR僅需10次尺度級自回歸推理,實現單張圖像推理耗時0.59秒,為主流擴散方法的10.1%,顯著提升實際部署可行性。
  • 在多組對比圖中,VARSR能夠準確還原目標結構(如交通燈顏色、建筑紋理、動物毛發),表現出強大的結構理解和語義建模能力。

ICML 2025 | 從語言到視覺,自回歸模型VARSR開啟圖像超分新范式-AI.x社區

表1:VARSR與GAN-based和Diffusion-based算法效果對比

圖5:VARSR與其他超分算法的主觀畫質對比

四、總結與展望


在本篇論文中,我們提出了一種基于自回歸生成方式的圖像超分算法。通過引入prefix token的狀態信息融合方式、尺度對齊旋轉位置編碼、VQ量化誤差矯正、圖像質量感知引導和大規模高質數據訓練,VARSR在主客觀指標上取得了業界領先的效果,持續為快手視頻處理體系(Kuaishou Enhancement Processing,KEP & Large Processing Model,LPM)提供算法支持。


目前,快手視頻處理體系已應用在內部多個業務場景,如快手視頻清晰度提升、基于內容的自適應處理和編碼等。通過提升畫質清晰度,用戶在觀看過程中,增強對內容的理解,擁有沉浸式體驗。長期以來,快手音視頻技術團隊深耕視頻處理算法領域,以創新驅動技術探索,期待在更多領域發揮落地應用,推動行業發展。



參考文獻:

[1] Real-ESRGAN: Training Real-world Blind Super-resolution with Pure Synthetic Data, ICCV workshop 2021

[2] Efficient and Degradation Adaptive Network for Real-world Image Super-resolution, ECCV 2022

[3] SeeSR: Towards Semantics-aware Real-world Image Super-resolution, CVPR 2024

[4] XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution, ECCV 2024

[5] Autoregressive Models in Vision: A Survey, TMLR 2025

[6] Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction, NeurIPS 2025

[7] Neural Discrete Representation Learning, NIPS 2017

已于2025-7-14 17:30:21修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 男人天堂网址 | 永久看片 | 久久国产视频网 | 欧美片网站免费 | 亚洲国产中文字幕 | 秋霞性生活 | 精品美女视频在线观看免费软件 | 日韩在线一区二区三区 | 日韩视频在线免费观看 | 精品综合久久 | 97影院在线午夜 | 国产精品久久久久久 | 天堂在线中文 | 91香蕉嫩草 | 亚洲精品国产偷自在线观看 | 日韩一区三区 | 欧美日韩一区二区在线 | 在线永久看片免费的视频 | 国产精品永久免费视频 | 夜夜爽99久久国产综合精品女不卡 | 国产精品一区二 | 黄色网址在线播放 | 欧美精品一区在线 | 午夜欧美日韩 | 日韩视频 中文字幕 | 欧美日韩在线精品 | 免费观看成人性生生活片 | 国产精品一区二区在线 | 国产高清性xxxxxxxx | 99国产精品一区二区三区 | 免费久久久 | 久久久.com| 国产精品久久在线观看 | 中文字幕亚洲视频 | 久久久久久久一区二区 | 欧美h视频| 成人免费网站 | 一区二区国产精品 | 亚洲男人天堂av | 亚洲精品1 | 91精品国产91久久久久久吃药 |