填補領域空白！TerDiT：首次探索大規(guī)模DiT模型量化問題精華

發(fā)布于 2024-9-11 10:32

瀏覽

0收藏

填補領域空白！TerDiT：首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2405.14854

項目鏈接：https://github.com/Lucky-Lance/TerDiT

填補領域空白！TerDiT：首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

最近在大規(guī)模預訓練的文本到圖像擴散模型方面的發(fā)展顯著提高了高保真圖像的生成能力，特別是基于transformer架構的擴散模型（DiTs）的出現(xiàn)。在這些擴散模型中，擴散transformer展示了卓越的圖像生成能力，降低了FID分數(shù)并提高了可擴展性。然而，由于其龐大的參數(shù)數(shù)量，部署大規(guī)模的DiT模型可能會非常昂貴。盡管現(xiàn)有研究已經(jīng)探索了擴散模型的高效部署技術，如模型量化，但關于基于DiT模型的研究仍然很少。為了解決這一研究空白，本文提出了TerDiT，一種面向量化感知訓練（QAT）和高效部署的基于transformer的三值化擴散模型方案。本文專注于DiT網(wǎng)絡的三值化化，并將模型規(guī)模從600M擴展到4.2B。本文的工作為大規(guī)模DiT模型的高效部署策略探索做出了貢獻，證明了從頭訓練極低比特的擴散transformer模型的可行性，同時在圖像生成能力上保持與全精度模型相當?shù)母偁幜Α?/strong>

介紹

大規(guī)模預訓練的文本到圖像擴散模型的進步已經(jīng)成功生成了復雜且高度保真于輸入條件的圖像。值得注意的是，基于transformer架構的擴散模型（DiTs）的出現(xiàn)代表了該研究領域的一個重要進展。與其他擴散模型相比，擴散transformer展示了在更高計算量下實現(xiàn)更低FID分數(shù)的能力。最新的研究突出了擴散transformer架構在圖像生成方面的顯著能力，例如在Stable Diffusion 3方法中展示的成果，以及在視頻生成方面的出色表現(xiàn)，如Sora所展示的工作。

鑒于擴散transformer模型的出色表現(xiàn)，研究人員現(xiàn)在越來越多地深入研究這些視覺模型的擴展規(guī)律，這與大語言模型相似。例如，Stable Diffusion 3提供了一系列參數(shù)規(guī)模的訓練DiT模型，從8億到80億。此外，有研究人員推測Sora可能擁有大約30億個參數(shù)。由于這些模型擁有龐大的參數(shù)數(shù)量，部署這些DiT模型往往成本高昂，尤其是在某些終端設備上。

為了應對部署難題，最近已經(jīng)有一些關于高效部署擴散模型的研究工作，其中大多數(shù)集中在模型量化方面。然而，據(jù)本文所知，目前的研究仍然存在兩個主要缺陷。首先，雖然量化基于 U-Net 的擴散模型已經(jīng)受到了很多關注，但對于基于transformer的擴散模型的量化方法探索仍然非常有限。其次，目前文獻中的大多數(shù)主流方法主要依賴于后訓練量化 (PTQ) 技術來進行模型量化，這會導致不可接受的性能下降，特別是在極低比特寬度（例如2比特和1比特）下。然而，神經(jīng)網(wǎng)絡的極低比特量化非常重要，因為它可以顯著減少部署所需的計算資源，尤其對于具有巨大參數(shù)規(guī)模的模型。在本文的研究過程中，本文發(fā)現(xiàn)目前還沒有研究考慮 DiT 模型的極低比特量化。

為了解決這些缺陷，本文提出利用量化感知訓練（QAT）技術對大規(guī)模 DiT 模型進行極低比特量化。在大規(guī)模模型領域，低比特 QAT 方法已在大語言模型（LLM）領域進行了討論。最近的研究表明，從頭開始訓練具有極低比特參數(shù)（例如二進制和三進制）的大語言模型，也可以達到與全精度模型相當?shù)母偁幮阅堋＿@表明大規(guī)模模型中仍然存在顯著的精度冗余，并且暗示了 QAT 方案對于大規(guī)模 DiT 模型的可行性。

在本文中，本文主要關注三值權重網(wǎng)絡，并提供了 TerDiT，這是本文所知的首個用于 DiT 的量化方案。本文的方法實現(xiàn)了三值擴散transformer模型的量化感知訓練（僅限權重）和高效部署。與 LLM 和 CNN 中線性層的簡單量化不同，本文發(fā)現(xiàn)直接對 DiT 模塊中的 adaLN 模塊進行權重三值化，會導致歸一化層中的大尺寸尺度和偏移值（由于權重量化和梯度近似），這與全精度模型相比，導致收斂速度較慢和模型性能較差。因此，本文提出了一種 adaLN 的變體，通過在 adaLN 模塊的三值線性層之后應用 RMS Norm，有效地緩解了這一訓練問題。

通過這種修改，本文將三值 DiT 模型的參數(shù)規(guī)模從 600M（DiT-XL/2的規(guī)模）擴展到 4.2B（Large-DiT-4.2B的規(guī)模），發(fā)現(xiàn)具有更多參數(shù)的模型能夠收斂到更好的結果。本文進一步采用現(xiàn)有的2-bit CUDA 內核來部署訓練后的三值 DiT 模型，使模型checkpoint 大小減少了十倍以上，推理內存消耗減少了約六倍，同時實現(xiàn)了具有競爭力的生成質量。主要貢獻總結如下：

受低位 LLMs 量化感知訓練方案的啟發(fā)，本文研究了針對三值 DiT 模型的 QAT 方法，并引入了 DiT 特定的改進以獲得更好的訓練效果，這在 DiT 文獻中尚未被探索。
本文將三值DiT模型的參數(shù)規(guī)模從600M擴展到4.2B，并基于現(xiàn)有的2-bit CUDA內核在GPU上部署了訓練后的三值DiT模型，使得4.2B DiT模型的推理內存消耗小于3GB。
與全精度模型在ImageNet基準測試（圖像生成）中的對比評估結果展示了本文提出的TerDiT方案的有效性。

本文的研究是首次嘗試探索DiT模型的量化問題。本文專注于量化感知訓練和大規(guī)模三值DiT模型的高效部署，為未來研究在極低比特精度下部署DiT模型提供了寶貴的見解。

TerDiT

TerDiT，這是一個用于進行僅權重量化感知訓練和高效部署大規(guī)模三值DiT模型的框架。本文首先簡要回顧擴散transformer（DiT）模型。然后，基于之前開源的Large-DiT，闡述了量化函數(shù)和量化感知訓練方案，并進行特定于QAT的模型結構改進以優(yōu)化網(wǎng)絡訓練，并介紹了三值部署方案。

擴散transformer模型

擴散transformer（Diffusion Transformer）。擴散transformer（DiT）是一種架構，它用操作潛在patches的transformer替代了擴散模型中常用的U-Net骨干結構。類似于下圖2（C）中展示的視覺transformer（ViT）架構，DiT首先將空間輸入劃分為一系列tokens，然后通過一系列transformer塊（下圖2（B））進行去噪處理。為了處理額外的條件信息（例如噪聲時間步t、類別標簽l、自然語言輸入），DiT利用自適應歸一化模塊（adaLNZero）將這些額外的條件輸入插入到transformer塊中。在最后一個transformer塊之后，應用標準線性解碼器來預測最終的噪聲和協(xié)方差。DiT模型的訓練方式與基于U-Net的擴散模型相同。

DiT中的AdaLN模塊。DiT與傳統(tǒng)ViT的主要區(qū)別在于需要注入條件信息以進行圖像生成。DiT在每個transformer塊中使用零初始化的自適應層歸一化（adaLN-Zero）模塊，如上圖2（B）紅色部分所示，該模塊根據(jù)輸入條件c計算維度級的縮放和偏移值。

AdaLN 是 DiT 模型中的一個重要組件，其效果已被證明優(yōu)于交叉注意力和上下文條件方法。在 DiT 架構中，AdaLN 模塊集成了一個包含大量參數(shù)的 MLP 層，占模型總參數(shù)的約 10% 到 20%。在 TerDiT 的訓練過程中，本文觀察到直接對該模塊進行權重三值化會導致不理想的訓練結果。

模型量化

如上文所示，理解DiT模型的擴展規(guī)律越來越受到關注，這對于開發(fā)和優(yōu)化大語言模型（LLM）至關重要。在最近的探索中，Large-DiT成功地將模型參數(shù)從600M擴展到7B，結合了LLaMA和DiT的方法。結果表明，參數(shù)擴展可以潛在地提升模型性能，并加快標簽條件的ImageNet生成任務的收斂速度。受此啟發(fā)，本文提出進一步研究DiT模型的三值化，這可以緩解部署大規(guī)模DiT模型相關的挑戰(zhàn)。在本小節(jié)中，本文介紹量化函數(shù)和量化感知訓練方案。

填補領域空白！TerDiT：首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

TerDiT 是一種僅對權重進行量化的方案，本文不對激活值進行量化。

量化感知訓練方案。 基于上述設計的量化函數(shù)，本文從頭開始訓練一個 DiT 模型，利用直接傳遞估計器（STE），允許梯度通過不可微分的網(wǎng)絡組件傳播。在整個訓練過程中，本文保留網(wǎng)絡的全精度參數(shù)。對于每一步訓練，通過前向傳播中的三值量化函數(shù)從全精度參數(shù)計算出三值權重，并在反向傳播中將三值權重的梯度直接應用于全精度參數(shù)進行參數(shù)更新。

然而，本文發(fā)現(xiàn)收斂速度非常慢。即使經(jīng)過多次訓練迭代，損失值也無法降低到合理范圍。本文認為這個問題可能源于三值線性層通常會導致較大的激活值，并提出在接下來的小節(jié)中通過針對 QAT（量化感知訓練）特定的模型結構改進來解決這個問題。

QAT特定模型結構改進

填補領域空白！TerDiT：首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

通過對三值線性層的輸出應用層歸一化，可以緩解由三值線性權重帶來的大激活值問題。本文在三值線性層之后添加了一個RMS歸一化層（類似于LLaMA），并獲得了激活值分布（如下圖3左側所示）。在這種情況下，激活值在通過歸一化層后被縮放到一個合理范圍，從而導致更穩(wěn)定的訓練行為。這一觀察結果也與[17]中的結論一致，其中在每個量化線性層的激活量化之前應用了層歸一化函數(shù)。

RMS歸一化的AdaLN模塊。 基于上述見解，本文分析了DiT模型以改進QAT特定的模型結構。在標準的ViT Transformer塊中，層歸一化應用于每個自注意力層和前饋層。DiT塊中的自注意力層和前饋層也是如此，這有助于適當?shù)乜s放激活值范圍。然而，由于上文中介紹的AdaLN模塊的存在，DiT塊與傳統(tǒng)的Transformer塊有所不同。值得注意的是，這個模塊沒有應用層歸一化。在全精度訓練的情況下，缺乏層歸一化并不會產(chǎn)生顯著影響。然而，對于三值DiT網(wǎng)絡來說，其缺失可能會導致adaLN（歸一化）模塊中的維度尺度和偏移值過大，從而對模型訓練產(chǎn)生不良影響。為了解決這個問題，本文在每個三值DiT塊的AdaLN模塊的MLP層之后引入了RMS歸一化：

最終的TerDiT模型結構如上圖2(A)所示。這個小的修改可以帶來更快的收斂速度和更低的訓練損失，從而在定量和定性評估中取得更好的結果。為了更好地展示這一效果，在原文附錄中分析了模型訓練后引入或不引入RMS Norm的實際激活分布。

部署方案

在訓練了DiT模型之后，本文發(fā)現(xiàn)目前沒有有效的開源三值網(wǎng)絡部署解決方案。在這種情況下，本文使用2位實現(xiàn)來部署訓練好的網(wǎng)絡。具體來說，本文使用文獻[44]提供的??pack_2bit_u8()???函數(shù)，將三值線性權重打包成??int8???值（4個三值數(shù)打包成一個??int8???數(shù)）。在DiT模型的推斷過程中，本文即時調用相應的??unpack_2bit_u8()??函數(shù)，將打包的2位數(shù)字恢復為浮點數(shù)值，然后進行后續(xù)計算。添加解包操作會減慢推斷過程，但本文相信，隨著對模型三值化研究的深入，將會有更多硬件支持來加速推斷過程。

實驗

在本節(jié)中，本文進行了一系列實驗來評估本文提出的TerDiT。本文展示了主要的評估結果，進行了部署效率比較，并說明了RMS Normalized adaLN模塊的有效性。本文的DiT實現(xiàn)基于開源代碼Large-DiT-ImageNet4。本文分別對具有600M（DiT-XL/2的大小）和4.2B（Large-DiT-4.2B的大小）參數(shù)的三值DiT模型進行了實驗。

主要評價結果

本文在本小節(jié)中提供了TerDiT模型的定量和定性評估結果。據(jù)本文所知，目前尚無關于擴散transformer模型量化的已發(fā)表工作，因此本文主要在本小節(jié)中將其與具有代表性的全精度擴散模型進行比較。

關于TerDiT基線的備注。 據(jù)本文所知，目前仍沒有研究DiT模型量化的工作。除了在本小節(jié)中與全精度模型進行比較外，本文還在其他小節(jié)中建立了一些基線進行比較。對于QAT基線，本文直接訓練了在Sec. 4.3中的adaLN模塊中沒有RMS Norm的三值DiT模型。為了與現(xiàn)有的PTQ方法進行比較，本文對預訓練模型進行了4位權重量化，使用與TerDiT相同的一組參數(shù)，結果發(fā)現(xiàn)它們無法生成可視的圖像。

實驗設置。 按照原始DiT論文的評估設置，本文在ImageNet數(shù)據(jù)集上訓練了600M和4.2B的三值DiT模型。由于計算資源的限制，本文在256×256分辨率下訓練和評估模型，但本文認為評估結果已經(jīng)具有很強的代表性。本文將TerDiT與一系列全精度擴散模型進行比較，并報告FID、sFID、Inception Score、Precision和Recall（50k生成圖像），參考[48]。本文還提供了訓練階段的總圖像數(shù)量（百萬），如[23]所示，以進一步了解不同生成模型的收斂速度。

填補領域空白！TerDiT：首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

定量結果分析。 評估結果列在下表1中。TerDiT是針對DiT模型的QAT方案，因此在所有全精度模型中，本文特別關注DiT-XL/2（675M）和Large-DiT-4.2B。在沒有分類器自由指導的情況下，TerDiT-4.2B在測試結果上與DiT-XL/2非常相似（使用的訓練圖像數(shù)量要少得多）。在有分類器自由指導（cfg=1.5）的情況下，TerDiT-4.2B-G的表現(xiàn)優(yōu)于LDM-G，同時與兩個全精度DiT結構模型相比僅帶來了非常輕微的性能下降。此外，TerDiT-4.2B-G的評估結果優(yōu)于TerDiT-600M-G，這表明參數(shù)更多的模型在量化后會帶來更小的性能下降。

為了直觀地展示TerDiT的有效性，本文在下圖4中展示了一些定性比較結果，涉及TerDiT-4.2B、DiT-XL/2和Large-DiT4.2B。從視覺感知的角度來看，TerDiT生成的圖像與全精度模型生成的圖像之間沒有顯著差異。

部署效率對比

部署效率的提升是本文提出TerDiT方案的動機。在本小節(jié)中，本文對TerDiT-600M/4.2B、DiT-XL/2和Large-DiT-4.2B進行了比較，以討論TerDiT在實際部署中所能帶來的效率提升。下表2展示了四種DiT模型的checkpoint 大小。本文還記錄了在單個A100-80G GPU上，總擴散采樣循環(huán)（步數(shù)=250）的內存使用情況和推理時間。

從表格中可以看出，TerDiT大大減少了checkpoint 大小和內存使用。4.2B三值化DiT模型的checkpoint 大小和內存使用顯著小于Large-DiT-4.2B，甚至比DiT-XL/2還要小。這為在終端設備（如手機）上部署模型帶來了顯著優(yōu)勢。盡管由于需要解包操作，本文觀察到推理速度較慢，但本文相信，隨著未來硬件支持的提升，三值化權重網(wǎng)絡的計算優(yōu)勢將會得到充分展示。

RMS歸一化AdaLN模塊的討論

TerDiT對DiT模型結構的主要修改是在adaLN模塊中的MLP之后增加了RMS Norm。在這一部分，本文與基線三值化模型進行比較，以展示RMS Norm對訓練過程和訓練結果的影響。

實驗設置。 本文在ImageNet數(shù)據(jù)集上以256×256分辨率訓練具有600M和4.2B參數(shù)的三值化DiT模型。對于每種參數(shù)規(guī)模，本文訓練了兩個模型，一個在adaLN模塊中使用了RMS Norm，另一個則沒有（本文的基線模型）。本文記錄了訓練過程中的損失曲線，并每100k訓練步測量一次FID-50k分數(shù)（cfg=1.5）。

填補領域空白！TerDiT：首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

結果分析： 訓練損失和評估得分分別顯示在下圖5和下圖6中。如圖所示，使用RMS Normalized adaLN模塊進行訓練將導致更快的收斂速度和更低的FID分數(shù)。另一個觀察結果是，參數(shù)更多的模型相比參數(shù)較少的模型能實現(xiàn)更快且更好的訓練效果。這在一定程度上也反映了三值化DiT模型的擴展規(guī)律。

討論和未來展望

本文在成功的大語言模型低比特訓練方法的基礎上，提出了針對大規(guī)模三值化DiT模型的量化感知訓練（QAT）和高效部署方法。在ImageNet數(shù)據(jù)集（256×256）上的競爭性評估結果證明了從頭開始訓練大型三值化DiT模型的可行性，同時實現(xiàn)了與全精度模型相當?shù)慕Y果。據(jù)本文所知，這是首個關于DiT模型量化的研究。

雖然本文認為這項工作為DiT模型的低比特量化提供了有價值的見解，但它仍然存在一些局限性。首先，訓練三值化DiT比全精度網(wǎng)絡更不穩(wěn)定且耗時。在本文中，盡管本文討論了通過添加歸一化方法來使訓練更穩(wěn)定，但相較于訓練全精度網(wǎng)絡（如Large-DiT-4.2B），它仍然更耗時，這將在更廣泛的背景下導致模型訓練期間二氧化碳排放量的增加。

其次，由于計算資源的限制，本文沒有進行ImageNet 512×512實驗，也沒有進行文本到圖像生成任務的實驗。然而，本文相信ImageNet 256×256基準上的評估結果已經(jīng)相當具有代表性。剩余的任務將留待本文未來的工作中進行。本文希望本文的工作可以減少圖像生成模型的部署需求，并能激勵社區(qū)在未來加入本文，共同促進這一研究領域的更廣泛發(fā)展。

本文轉自 AI生成未來，作者：Xudong Lu等

原文鏈接:??https://mp.weixin.qq.com/s/BoXOGi1ODn3DUz_lKCBISg??

標簽
訓練
模型

贊

收藏

回復

分享

微博

QQ

微信

舉報
舉報

微信掃碼分享

刪除帖子
刪除取消

回復

相關推薦

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集

mb5f8eba9bdb0af ? 2477瀏覽 ? 0回復
谷歌提出大規(guī)模ICL方法——強化和無監(jiān)督

Aceryt ? 2598瀏覽 ? 0回復
填補領域空白！TerDiT：首次探索大規(guī)模DiT模型量化問題

angel ? 3923瀏覽 ? 0回復
填補AlphaFold3空白，字節(jié)跳動提出物理引導的方法讓蛋白質動起來

輕薄滴假象 ? 2707瀏覽 ? 0回復
【LLM】提升大規(guī)模并行訓練效率的方法

sbf_2000 ? 4207瀏覽 ? 0回復
剖析大規(guī)模 GPU 集群：針對 LLM 場景的挑戰(zhàn)和優(yōu)化

amei2000go ? 5710瀏覽 ? 0回復
阿里 HPN：針對大規(guī)模 LLM 訓練的萬卡集群

amei2000go ? 6073瀏覽 ? 0回復
AUTODETECT：面向大規(guī)模語言模型中自動弱點檢測的統(tǒng)一框架

AIRoobt ? 5470瀏覽 ? 0回復
LLaMA 3 背后的大規(guī)模 GPU 集群 RoCE 網(wǎng)絡建設

amei2000go ? 4902瀏覽 ? 0回復
Jamba-1.5：大規(guī)模混合Transformer-Mamba模型

sbf_2000 ? 3333瀏覽 ? 0回復
大規(guī)模分布式 AI 模型訓練—張量并行

amei2000go ? 3523瀏覽 ? 0回復
大規(guī)模分布式 AI 模型訓練系列——流水線并行

amei2000go ? 4220瀏覽 ? 0回復
大規(guī)模分布式 AI 模型訓練系列—專家并行

amei2000go ? 1.1w瀏覽 ? 0回復
ChatGPT 與 AI 會議同行評審：大規(guī)模監(jiān)測 AI

51CTO技術棧 ? 2366瀏覽 ? 0回復
詳解大規(guī)模基礎模型中的幻覺問題（幻覺檢測、緩解、任務、數(shù)據(jù)集和評估指標）

angel ? 5215瀏覽 ? 0回復
詳解大規(guī)模基礎模型中的幻覺問題（幻覺檢測、緩解、任務、數(shù)據(jù)集和評估指標）

angel ? 5079瀏覽 ? 0回復
大規(guī)模情感分析：將NLP應用于多語言和特定領域的文本

51CTO內容精選 ? 2487瀏覽 ? 0回復
大規(guī)模相似性搜索：原理、技術與 Faiss 實踐

柏企閱文 ? 2622瀏覽 ? 0回復
在個人電腦上運行Llama 3 70B大規(guī)模模型指南

丟翅膀的魚 ? 4329瀏覽 ? 0回復

angel

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

多領域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復
從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復
Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復
本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復
DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：突破性進展！只需單張參考圖，完美仿寫各種手寫內容！華南理工等開源One-DM

下一篇：入門必讀！多模態(tài)大語言模型的演變全回顧！（視覺定位、圖像生成、編輯、理解）

社區(qū)精華內容

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

填補領域空白！TerDiT：首次探索大規(guī)模DiT模型量化問題精華

介紹

相關工作