成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸

發布于 2025-6-10 09:36
瀏覽
0收藏

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

論文鏈接:???https://openaccess.thecvf.com/content/CVPR2025/papers/Hu_Improving_Autoregressive_Visual_Generation_with_Cluster-Oriented_Token_Prediction_CVPR_2025_paper.pdf??? 
項目鏈接:https://sjtuplayer.github.io/projects/IAR/ 
Git鏈接:https://github.com/sjtuplayer/IAR 
單位:上海交通大學、騰訊優圖、浙江大學

1.引言

使用自回歸進行視覺生成最近已成為一個研究重點。然而,現有的方法主要是將自回歸架構轉移到視覺生成中,但很少研究語言和視覺之間的根本差異。這種疏忽可能導致自回歸框架內視覺生成能力的次優利用。在本文中,作者探討了自回歸框架下視覺特征空間的特點,發現視覺編碼之間的相關性可以幫助實現更穩定和更魯棒的生成結果。為此,上海交通大學數字媒體與計算機視覺實驗室,聯合騰訊優圖和浙江大學,提出了IAR,一種改進的自回歸視覺生成方法,提高了基于自回歸的視覺生成模型的訓練效率和生成質量。


(1) Codebook重排策略,該策略使用平衡的k-means聚類算法將視覺碼本重新排列成簇,確保每個簇內視覺特征之間的高度相似性。


(2) 面向簇的交叉熵損失,引導模型正確預測目標Token所在的簇。結合Codebook重排列,可以確保即使模型預測錯誤的Token索引,預測的錯誤Token位于正確的簇中的概率也很高,從而保證生成圖像與目標圖像的相似性。


IAR顯著提高了生成質量和穩健性。IAR可以直接應用到現有的自回歸視覺生成框架中,在LLamaGen和VAR上,能夠穩定提升訓練效率和效果,最大提升42%的訓練效率。

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

圖1:IAR能夠使得AR模型預測錯誤Token時,最大概率保證其落在正確的簇中,使得解碼后與目標圖像仍然是相似的

2.圖像與自然語言之間的連續性差異

近年來,生成模型在圖像和視頻生成領域取得了顯著突破,隨著多模態研究的興起,圖像與文本的融合成為了一個重要方向。研究人員希望開發一種統一的多模態模型,能夠同時理解和生成圖像與文本內容。基于此,將圖像生成技術與大型語言模型(LLM)結合逐漸成為熱點。


傳統圖像生成方法如 GAN 和擴散模型,主要在連續空間中建模圖像分布,而自回歸方法則選擇先將圖像離散化為Token,再通過語言模型的方式進行預測。這些方法借鑒了自然語言處理中的經驗,比如自回歸模型采用 GPT 的“Next-Token預測”策略。


然而,圖像與文本在本質上存在重要區別:文本是離散的,可以直接通過查找表將詞語映射到索引;而圖像是連續的,需要通過編碼器將其轉化為離散的Token,再通過碼本(codebook)檢索對應的編碼,最終解碼為圖像。這種差異啟發了圖像生成可以考慮利用視覺特征空間中的連續性和相關性,而不僅僅是預測單一的Token索引。


由于圖像編碼位于連續的特征空間中,相似的編碼通常對應于內容相近的圖像。這是否意味著,即使模型預測的Token略有偏差,只要其對應的編碼足夠相似,生成的圖像質量也不會受到太大影響。

3.圖像編碼的相似性

作者發現,在碼本(codebook)中相近距離的編碼表示相似的圖像信息。當距離(code distance)較小時,解碼出的圖像與目標圖像在感知質量上幾乎一致。作者在VQGAN上驗證了這一想法。

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

圖2:Code Distance與圖像相似性的關聯


同時,作者進一步可視化了不同Code Distance解碼出的圖像,當Code Distance較低(例如,小于 12)時,解碼出的圖像與源圖像幾乎相同,且具有良好的視覺質量。這表明,即使預測的 token 索引不是準確的目標索引,只要相應編碼之間的Code Distance處于一定范圍內,解碼出的圖像仍然與目標圖像相似,且具有良好的視覺質量。

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

圖3:Code Distance在一定范圍內,能夠保證相似且高質量的圖像生成

4.方法

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

圖4:框架圖

4.1 Codebook重排

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

圖5:均衡K-means聚類

4.2 面向簇的視覺生成:

在現有的自回歸模型中,都是面向Token設計交叉熵損失:

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

由于簇的數量少,預測簇比直接預測token更簡單,同時,只要預測正確了簇的索引,即可保證生成圖像不會偏離目標圖像,從而極大地促進模型的魯棒性與生成質量的穩定性。

5.實驗結果

5.1 生成質量比較

為了評估圖片質量,IAR選擇 LlamaGen作為基模型,并保持超參數與LlamaGe一致。實驗在 ImageNet數據集上進行。實驗生成了 50,000 張隨機標簽的圖像,并計算生成數據的FID、IS、精度(Precision)和召回率(Recall)。作者首先比較了不同類型圖像生成模型在這些參數上的表現:

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

圖6:實驗結果

實驗結果表明,與 GAN、擴散模型、掩碼預測方法和自回歸方法等相比,IAR達到了最優的 FID(2.19)和 IS(362.0),并且在不同的參數量下(100M到1.4B),IAR都取得了優于LLamaGen的表現。

5.2 與 LlamaGen 的更多比較:

效果對比:在不同模型參數規模(111M 至 1.4B),圖像分辨率(16×16 和 24×24 圖像塊),訓練輪次(50 和 300 輪)條件下,IAR均有著更好的FID和IS,優于基線模型 LLamaGen;

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

圖7:不同setting下與LLaMaGen的詳細比較

訓練效率:在175個epoch時,IAR 模型的FID與 LlamaGen 300個epoch的相當,訓練速度提升約 42%。此外,在 300 個 epoch 的訓練下,IAR 模型進一步提升了生成質量。

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

圖8:訓練效率比較

5.3 VAR+IAR

IAR可以用于現有任意的自回歸模型中,為了驗證在不同自回歸模型上的有效性,實驗選取了VAR作為基礎模型,并進一步將IAR應用于VAR中,實驗表明,IAR同樣能夠有效促進VAR的效果,驗證了IAR在不同自回歸模型中的有效性。

CVPR 2025 | 訓練效率提升42%!上交&騰訊優圖&浙大發布IAR:打破LLM視覺生成瓶頸-AI.x社區

圖9:VAR+IAR的效果提升

6.總結

IAR分析了基于 LLM 的視覺生成中自然語言與圖像的差異,發現碼本中相似的圖像編碼可生成相似圖像。據此提出 IAR,有效提升了訓練效率和生成質量。本文通過平衡 K-means 聚類對碼本重排,使簇內的編碼相似,并引入面向簇的交叉熵損失,引導模型學習目標簇的擬合,從而保證即使預測錯誤圖像 Token ,也能生成高質量圖像。實驗證明 IAR 可穩定提升 LlamaGen的性能,并適配多種 LLM 視覺生成模型(如VAR等),為該自回歸視覺生成提供新方向。


本文轉自AI生成未來 ,作者:AI生成未來

原文鏈接:???https://mp.weixin.qq.com/s/VP85WGtFHq2Sfj2gbevQAw?????

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 一级黄色av电影 | 一区日韩| 亚洲精品在线看 | 99久久免费精品国产男女高不卡 | 99爱视频 | 国产精品久久久久久久久久免费看 | 日韩av一区在线观看 | 中文字字幕一区二区三区四区五区 | 99re6热在线精品视频播放 | 久久高清 | 成人三级av | 久久久精品影院 | 69xxx免费| 第一区在线观看免费国语入口 | 亚洲欧美精品在线观看 | 久久极品 | 亚州成人 | 国产精品免费视频一区 | 成人欧美一区二区三区黑人孕妇 | 色欧美片视频在线观看 | 国产亚洲精品久久19p | 欧洲高清转码区一二区 | 在线免费观看欧美 | 狠狠干综合视频 | 天天综合网天天综合 | 一级国产精品一级国产精品片 | 日韩美女爱爱 | 成人av在线播放 | 91免费观看 | 亚洲精品乱码久久久久久久久久 | 中文字幕日韩欧美一区二区三区 | 九九热在线精品视频 | 亚洲欧美成人影院 | 久久久国产一区二区三区 | 免费看淫片 | 天天干天天爱天天爽 | 欧美一级在线观看 | 黄色精品 | a级免费视频 | 国产高清性xxxxxxxx | 色婷婷亚洲一区二区三区 |