TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法

發布于 2025-6-27 00:55

瀏覽

0收藏

大家好，今天給大家分享一個圖像生成的新工作—-Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression，后面我們簡稱TransDiff。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區

首先，TransDiff是目前最簡潔的、將AR Transformer與Diffusion結合用于圖像生成方法。TransDiff將離散輸入（如類別、文本等）、連續輸入（圖像等）經過AR Transformer 編碼為圖像語義表征，而后將表征通過一個較小的Diffusion Deocder 解碼為圖片。

其次，我們提出了一種新的自回歸范式-- MRAR（Multi-Reference Autoregression）。此范式類似NLP領域的In-context Learning（ICL）：通過學習上文同類別圖片生成質量更好、更多樣的圖片，唯一的區別是上文的圖片是模型自己生成的。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區

Paper: https://arxiv.org/pdf/2506.09482
Code：https://github.com/TransDiff/TransDiff
Model:  https://huggingface.co/zhendch/Transdiff

具體介紹

為了節省讀者的時間，拋棄論文的結構，用Q&A這種更簡介的方式介紹TransDiff。

問：為什么使用Transformer？我們工作中AR Transformer編碼出了什么信息？

答：早期的CLIP工作以及后來大模型時代層出不窮的VL模型已經證明Transformer在圖像理解領域的優勢。尤其是在CLIP工作中，ViT模型可以將圖片的表征對齊到語義空間（文字bert表征與圖片的ViT表征cosine相似度）。

相似的，實驗證明：TransDiff中AR Transformer也是將類別和圖片編碼至圖片的高級（對比像素）語義空間。以下將不同類別的256維特征隨機進行拼接后生成得到圖片，不同于其他模型（VAR、LlamaGen等）的像素編輯，定性實驗展現出了模型的語義編輯能力。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區

問：TransDiff使用較小Diffusion Deocder是否有制約？是否優于單純Diffusion和AR Transformer方法？

答：TransDiff的deocder使用DiT結構，使用Flow Matching范式。diffusion占總體參數的1/3，參數量顯著低于主流diffusion模型。但是對比能夠搜集到的所有單純Diffusion和AR Transformer方法，TransDiff在Benchmark上還是有一定優勢，至少是“打的有來有回”。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區

問：TransDiff很像MAR，是否只是MAR的簡單模仿？

答：TransDiff與MAR雖然結構上很像，但是模型展現的特點截然不同。首先，MAR是在像素（或patch）上生成，沒有顯性的語義表征，其次由于MAR使用的Diffusion Deocder過于簡單（n層MLP Layer）導致decoder表現力有制約。因此，從下圖可以看出：MAR無法 “一步生圖”，且圖像patch是在自回歸過程中逐步迭代“完善”。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區