成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略

發布于 2024-9-19 12:23
瀏覽
0收藏

本論文第一作者倪贊林是清華大學自動化系 2022 級直博生,師從黃高副教授,主要研究方向為高效深度學習與圖像生成。他曾在 ICCV、CVPR、ECCV、ICLR 等國際會議上發表多篇學術論文。


近年來, AIGC 領域發展十分迅猛。在計算機視覺中,擴散模型已經成為一種有效且常用的模型。相反,在自然語言處理領域,內容的生成通常通過使用 Transformer 去生成離散的 token。受到這種差異的啟發,越來越多的研究(以 VQGAN 作為典型代表)開始探索這種基于離散 token 的生成范式在視覺合成中的應用。與擴散模型不同,這些方法采用類似于語言模型的離散 token 作為生成的基本單元。


為什么要探索基于離散 token 的生成模型?我們認為主要有以下幾點原因:


1) 由于與語言模型范式相同,它們可以直接利用語言模型中已經成熟的訓練、推理技術

2) 有助于開發更先進的、具有共享 token 空間的、scalable 的多模態基礎模型

3) 有助于建構統一視覺理解與生成能力的通用視覺基礎模型


在基于離散 token 的生成里,近幾年非自回歸 Transformer (Non-autoregressive Transformer, NAT) 展現出了顯著的計算效率與生成質量方面的潛力,不同于傳統的自回歸生成范式,NAT 能夠在僅 4 到 8 步內生成質量不錯的圖像。它的生成過程如下圖所示:


ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

NAT 生成過程的示意圖


簡單來說,這類模型從一個完全 mask 的 token map 開始,每步并行解碼多個 token,直到所有的 token 被解碼,然后再通過一個預訓練的解碼器把 token 空間變換到圖像空間,得到生成結果。


雖然 “并行解碼” 的機制讓模型生成過程更加地高效和靈活。但它也引入了許多復雜的設計挑戰,例如每一步應該解碼多少 token、應該選擇哪些 token、以及采樣時應該有多大的隨機性等。


現有的工作通過構建一套包含多個人工設計的調度函數(統一記為)的生成策略來緩解這一問題。如下圖所示:


ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

NAT 的默認生成策略,其中 T 為總生成推理步數,t 為當前推理步,均為超參數。每一行策略的具體含義可以參見原文


然而,這種人為設計的方式不僅需要大量的專業知識和人力成本,最終得到的策略函數仍然可能并非最佳。與此同時,我們認為不同樣本都有其獨特的特性,一個應用于所有樣本的、全局共享的生成策略可能難以靈活應對樣本之間的差異性。


基于上述觀察,我們提出 AdaNAT,核心思想是引入一個可學習的策略網絡,自動根據每個樣本自適應地配置生成策略:


ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

現有工作與 AdaNAT 的對比,這里

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

是當前生成樣本在時刻時的 token map


ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

  • 論文標題:AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
  • 論文地址:https://arxiv.org/abs/2409.00342
  • 代碼與預訓練模型已經開源:https://github.com/LeapLabTHU/AdaNAT


方法介紹


然而,訓練一個自適應、自動配置生成策略的網絡面臨一個直接的挑戰:基于離散 token 的生成過程是不可微的,因此我們無法直接采用標準的端到端優化技術如梯度下降的方法來優化這個網絡。為應對這一挑戰,我們將生成策略的優化問題形式化為馬爾可夫決策過程(MDP),在此基礎上,策略網絡可以自然地被定義為一個「觀察生成狀態,自適應地配置策略以最大化生成質量」的 agent,也因此可以通過強化學習算法(如策略梯度)進行訓練。


另一個值得注意的點是,在我們的問題中,設計合適的獎勵函數對于有效訓練策略網絡至關重要。為了解決這一問題,我們首先考慮了兩種現成的設計選擇:


  • 標準評估指標如 Fréchet Inception Distance (FID)
  • 預訓練的圖像獎勵模型,如 ImageReward 模型


然而,我們的實驗結果表明,盡管這些設計能夠有效地最大化獎勵函數,但最終的生成模型往往無法生成足夠高質量或足夠多樣化的圖像,如下圖所示:

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

以 FID 作為獎勵函數的圖像生成效果 (FID=2.56)

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

以預訓練的獎勵模型作為獎勵函數的圖像生成效果 (FID=33.1)

換句話說,策略網絡傾向于 “過擬合” 這些預先設定的、靜態的獎勵函數。受到這一現象的啟發,我們的核心思路是在策略網絡學習的同時,動態更新獎勵函數以防止策略網絡過擬合,讓二者 “相互對抗,共同進步”。這種思想自然地讓我們聯想到生成對抗網絡 (GAN) 的想法,因此,我們提出了一個對抗獎勵模型,該模型類似于 GAN 中的判別器,以生成樣本為真實圖片的概率作為獎勵。當策略網絡學習最大化獎勵時,我們同時優化獎勵模型,以更好地區分真實樣本和生成樣本。總結來看,AdaNAT 的方法示意圖如下:

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

AdaNAT 示意圖


實驗結果


我們在多個基準數據集上驗證了 AdaNAT 的有效性,包括 ImageNet 的 class-conditional 生成以及 MSCOCO 和 CC3M 數據集的文到圖生成。


得益于 NAT 生成范式中并行解碼的優勢,AdaNAT 在 ImageNet-256 和 ImageNet-512 數據集上,相較于主流的擴散模型,在低開銷場景下,推理開銷至少減少了 2-3 倍,同時生成效果更佳:

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

ImageNet-256 class-conditional 生成結果

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

ImageNet-512 class-conditional 生成結果

此外,在文到圖生成方面,AdaNAT 也有著不錯的表現:

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

MSCOCO 文到圖生成結果


ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

CC3M 文到圖生成結果

在模型的優化過程中,我們也能明顯看到生成質量隨著策略網絡的學習而提升,同時 FID 指標也有相應的下降:

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

AdaNAT 的優化過程可視化


消融實驗發現,引入可學習、自適應的策略都對提升 NAT 的生成質量有所幫助:

ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

消融實驗

最后,我們也可視化了 AdaNAT 模型生成的圖片,總的來看,AdaNAT 的生成樣本同時具有良好的生成質量與多樣性:


ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略-AI.x社區

AdaNAT 生成結果可視化

本文轉自 機器之心  ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/wTcVBpAb97Kq1cEVbOMNbA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 中文字幕一区二区在线观看 | 国产精品国产精品 | 视频一二三区 | 免费观看的av毛片的网站 | 国产精品污www一区二区三区 | av高清毛片 | 日韩精品一区二区三区在线播放 | 日本激情视频在线播放 | 国产又爽又黄的视频 | 美女一级毛片 | 欧美一级在线观看 | 美女福利视频网站 | 99精品网 | 日韩一区不卡 | 中文精品久久 | 91中文字幕 | 国产精品欧美一区喷水 | 国产美女精品视频 | 久久男女视频 | 婷婷五月色综合 | 亚洲人成在线观看 | 中文一区二区 | 国产精品久久久久一区二区三区 | 国产1区2区在线观看 | 不卡一区 | 亚洲一区视频 | 日韩高清一区二区 | 伊人春色成人网 | 日韩亚洲欧美一区 | 国产一区二区三区在线看 | 国产精品久久久久久久久久了 | 日韩av电影在线观看 | 日韩毛片播放 | 一区二区三区久久久 | 成人在线精品视频 | 色欧美片视频在线观看 | 日韩在线欧美 | 欧美aⅴ | 手机av免费在线 | 久久999| 亚洲毛片网站 |