讓SD系列和FLUX.1無痛升級!浙大&vivo提出CoMPaSS:文生圖空間理解能力暴漲!
論文鏈接:https://arxiv.org/pdf/2412.13195
git鏈接:https://github.com/blurgyy/CoMPaSS
亮點直擊
- 一個綜合的訓練框架CoMPaSS,顯著增強了T2I擴散模型的空間理解能力。
- 一個系統化的數據引擎SCOP,通過施加原則性約束來識別和驗證圖像中對象對之間明確的空間關系,從而能夠策劃高質量的空間訓練數據。
- 一個無參數模塊TENOR,進一步提高了任何架構的T2I擴散模型的空間理解能力,同時增加的計算開銷可以忽略不計。
總結速覽
解決的問題
文本到圖像(T2I)擴散模型在生成圖像時,通常無法準確呈現文本提示中描述的空間關系。主要原因有兩個:1)現有數據集中與空間相關的數據具有模糊性;2)當前文本編碼器無法準確解析輸入描述的空間語義。
提出的方案
引入CoMPaSS框架,該框架包括兩個關鍵模塊:空間約束導向配對(SCOP)數據引擎和token編碼順序(TENOR)模塊。SCOP通過施加原則性空間約束來策劃空間準確的訓練數據,以解決數據模糊性問題。TENOR模塊則改善文本編碼器對空間語義的解析,充分利用高質量的空間先驗。
應用的技術
- SCOP數據引擎:通過一組原則性空間約束識別和驗證圖像中對象之間的明確空間關系,從而策劃高質量的空間訓練數據。
- TENOR模塊:一個無參數模塊,優化文本編碼器的空間理解能力,幾乎不增加計算開銷。
達到的效果
- CoMPaSS框架在四種流行的開源T2I擴散模型上展示了其有效性,顯著提升了模型在空間關系生成上的表現。
- 在多個基準測試中取得了顯著的相對增益,包括VISOR(+98%)、T2I-CompBench Spatial(+67%)和GenEval Position(+131%),刷新了SOTA。
方法
CoMPaSS?,這是一種用于提高文本到圖像擴散模型空間理解能力的綜合解決方案。開發了空間約束導向配對(SCOP)數據引擎,該引擎從圖像中提取具有明確空間關系的對象對,并提供其準確的文本描述。介紹了Token編碼排序(TENOR)模塊,這是一個即插即用的模塊,通過引入顯式的token排序信息來增強文本輸入中空間語義的保留。
這些組件共同形成了一種提高文本到圖像擴散模型空間理解能力的綜合方法:SCOP通過精心策劃的空間關系提供高質量的空間先驗,而TENOR使模型能夠在生成過程中有效地解釋和利用這些空間先驗。
SCOP數據引擎
在生成模型中實現高質量的空間理解需要訓練數據具有明確的空間關系。然而,現有的文本-圖像數據集往往包含存在問題的空間描述。如下圖2所示,1)“左”和“右”等術語由于視角模糊性而受到影響,可能不一致地指代觀察者視角或對象本身的方向;2)方向性術語經常在非空間上下文中使用(例如,“正確的選擇”);3)空間關系常常缺少或錯誤地描述參考對象,使得無法確定預期的空間配置。這些問題給試圖從此類數據中學習可靠空間關系的模型帶來了重大挑戰。
通過空間約束導向配對(SCOP)數據引擎來解決這一限制,該引擎通過精心設計的空間約束來識別和驗證對象對之間的空間關系。如下圖3所示,
SCOP通過三個關鍵階段處理圖像:
- 視覺重要性:對象必須占據圖像的足夠部分,以確保其空間關系具有意義:
一個相對較小的Tv值確保了上一階段推理的空間關系成為圖像的主要特征,而不是背景元素的偶然排列。
語義區分:對象必須屬于不同的類別,例如:
該約束消除了在空間描述中,由于同一對象類別的多個實例而可能產生的參考混淆。
最小重疊:對象必須保持足夠的視覺分離。
重疊閾值 保持了單個對象的可見性,同時允許諸如“杯子在桌子上”這類自然的空間配置,其中預期會有部分重疊。
尺寸平衡:成對的對象應具有相當的視覺顯著性。
通過這一約束,兩個對象應在空間關系中有類似的貢獻,防止出現一個對象過小而無法作為可靠的空間參考的情況。這些約束有效地過濾掉了模糊的空間關系,同時保留了自然的對象交互,為清晰和一致的空間描述奠定了堅實的基礎。
SCOP 數據集。 在 COCO 訓練集上自動化 SCOP,以策劃一個專門用于訓練具有改進空間理解能力的 T2I 模型的數據集,涵蓋超過 15,000 張圖像中的 28,000 多個對象對,具有明確定義的空間關系和準確的空間描述符。該數據集顯著提高了在其上訓練的 T2I 擴散模型的空間理解能力,而其規模僅為網絡規模數據集的一小部分(LAION-400M的 0.004% 或 CC-12M的 0.13%),展示了 SCOP 數據引擎的效率和效能。
SCOP數據引擎提取的示例對象對及其相應的邊界框:
Token 編碼排序模塊
文本到圖像的擴散模型依賴于文本編碼器,將自然語言描述轉化為語義表示,以指導圖像生成過程。為了生成準確的空間關系,這些語義表示必須保留輸入文本中描述的準確空間關系。這是T2I(文本到圖像)擴散模型有效空間理解的基礎。
空間理解分析。 研究擴散模型是否能夠正確表示空間信息。關鍵見解是,如果文本編碼器能夠正確保留空間關系,那么邏輯上等效的空間描述在其編碼表示中應該具有高度相似性。設計了一個agent任務來量化這一特性:給定一個描述空間關系的基本提示(例如,“A在B的左邊”),生成其三個變體:
- 重述:邏輯上等效但措辭不同(“B在A的右邊”);
- 否定關系:將關系短語替換為其相反的短語(“A在B的右邊”);
- 交換實體:交換對象位置(“B在A的左邊”)。
理論上,只有重述的變體應該產生與基本提示相似的編碼。
為了確保全面的評估,使用COCO中的所有80個對象類別進行分析,結合四種基本空間關系(“左”、“右”、“上”、“下”),生成了6,320個提示。根據編碼表示之間的相似性,檢索出最相似的提示變體,使用四個文本編碼器進行評估。結果如表1所示:即使是擁有110億參數的T5-XXL也在95%以上的情況下無法識別邏輯上等效的變體。較輕的編碼器如CLIP在不同的模型尺寸上幾乎完全失敗,這表明當前的文本編碼器在其編碼表示中沒有充分保留空間關系。
解決方案。 基于這一分析,提出了TENOR,這是一種即插即用的模塊,旨在彌補當前文本編碼器的局限性。TENOR通過在整個文本到圖像生成過程中的注意力操作中增強條件文本信號的原始token順序信息來運行。與transformer中的原始位置編碼僅將位置編碼添加到初始標記embedding不同,TENOR明確地將token順序信息注入到擴散模型中的每一次文本-圖像注意力操作中。這一設計確保了每次文本指導影響圖像生成過程時,空間語義都能得到積極保留。
實現與效率。 下圖 4 展示了 TENOR 的整體過程。具體來說,在擴散模型中的每一次文本-圖像注意力操作中,TENOR 將絕對位置編碼添加到 UNet 模型的 K 向量,以及 MMDiT 模型的 Ktext 和 Qtext。在現有方法中,有建議在訓練期間微調文本編碼器、在測試時進行優化或結合大語言模型,但這些方法在訓練或推理時會增加顯著的計算開銷。相比之下,我們的解決方案不需要擴散模型以外的額外可訓練參數,并且在推理時幾乎沒有計算負擔。雖然適配 TENOR 需要對擴散模型進行簡短的微調,但這一過程比訓練新的空間感知文本編碼器要高效得多。根據經驗,發現這種方法顯著提高了 UNet 模型和 MMDiT 模型 FLUX 的空間理解能力。
證明空間關系“左”的附加結果:
證明空間關系“上”的附加結果:
證明空間關系“右”的附加結果:
證明空間關系“下”的附加結果:
實驗
訓練細節
評估指標
我們在幾個著名的基準上對CoMPaSS進行了廣泛評估,這些基準如下所述:
- T2I-CompBench和GenEval是兩個用于全面評估文本-圖像對齊能力的基準。除了空間相關評估外,它們還提供評估屬性綁定正確性、非空間關系和計數的方法。我們使用它們來評估CoMPaSS在非空間理解任務上的性能影響。
- Frechet Inception Distance (FID)和CLIP Maximum Mean Discrepancy (CMMD)用于估計從文本到圖像模型生成的圖像的保真度。FID估計生成圖像的逼真度。CMMD是一種圖像質量估計器,與人類偏好更好地對齊,旨在彌補FID的一些局限性。我們報告這兩者的結果。
主要結果
空間理解。 在多個基準測試中評估空間關系生成的準確性,并在下表2中報告結果。將CoMPaSS添加到現有擴散模型中,在所有與空間相關的指標上達到了新的SOTA水平。值得注意的是,在最佳開放權重擴散模型FLUX.1中,CoMPaSS在VISOR上獲得了+98%的相對增益,在T2I-CompBench Spatial上獲得了+67%的增益,在GenEval Position上獲得了131%的增益。如下圖5所示,現有模型通常在空間關系上表現不佳,而CoMPaSS有效地解決了這些局限性,即使是在訓練期間未見過的新空間配置上,也表現出顯著的空間理解提升。
通用生成能力和保真度。 除了與空間相關的指標外,還在GenEval和T2I-CompBench基準測試中評估其他任務,以及FID和CMMD的圖像保真度評分。結果在下表3和下表5中報告。CoMPaSS專門提高了與空間相關的性能,同時提高了整體對齊分數和圖像保真度。推測在基礎模型中,空間術語與不相關的語義糾纏在一起,這是由于數據嚴重缺陷和表示不清晰造成的。通過專門解開空間術語的糾纏,模型也學會了更好地理解語言的其他方面,從而在其他任務上取得了改進。
消融研究
在接下來的實驗中,對SD1.5(最流行且易于獲取的基于UNet的擴散模型)和FLUX.1-dev(基于MMDiT架構的最先進擴散模型)進行對照實驗,以更好地理解每個組件如何影響生成性能。在不同設置下的空間準確性指標在下表4中報告。
SCOP的效果。 在每個模型中比較設置(i)和(ii)顯示,僅SCOP就對擴散模型的空間理解有顯著貢獻。這一發現與我們的初始動機一致,識別出當前模型在空間相關生成上失敗的一個主要原因是,當前數據集產生了嚴重缺陷的空間相關圖像-文本數據。這也證實了SCOP能夠篩選出一組高質量的數據,直接促進了擴散模型的空間理解。
TENOR的效果。 上表4顯示,方法完整(每個模型中的設置(iii))進一步提高了空間準確性。用訓練期間未見過的文本描述提示模型,并將生成結果與設置(ii)進行比較。結果如下圖6所示。雖然SCOP提供了豐富且準確的空間先驗,但只有在結合TENOR后,模型才能更好地推廣到未見過的復雜空間配置。這一現象與我們在上表1中關于流行文本編碼器空間理解缺陷的初步發現緊密相關:當完全相反的文本描述的語義表示無法區分時,模型被訓練去對齊來自看似相似文本條件的混合圖像信號,導致超出訓練數據的泛化能力差。
TENOR通過在整個擴散模型中主動將token順序信息注入每次文本-圖像注意操作,解決了這一問題,在輸入層面解開不同的空間配置,減輕了模型區分不同空間術語的負擔,從而在未見過的設置上實現更好的零樣本生成。
結論
CoMPaSS,這是一種多功能訓練框架,可增強任何文本到圖像擴散模型的空間理解能力。CoMPaSS通過SCOP數據引擎解決了數據集中空間關系模糊的問題,SCOP通過原則性約束來策劃空間準確的訓練數據。CoMPaSS還使用了一個無參數模塊TENOR,該模塊在不增加計算開銷的情況下,進一步提升了任何架構的文本到圖像擴散模型的空間理解能力。對四種流行的開源擴散模型進行了廣泛的實驗,涵蓋了基于UNet的模型(SD1.4、SD1.5、SD2.1)和基于MMDiT的FLUX.1,并在知名基準測試中設定了新的行業標準,取得了顯著的相對增益,包括VISOR(+98%)、T2I-CompBench Spatial+67%)和GenEval Position =(+131%)。重要的是,空間理解能力的提升并沒有以犧牲一般生成能力或圖像質量為代價。通過解決當前文本到圖像擴散模型的一個基本限制,相信CoMPaSS在可靠的空間精確圖像生成方面邁出了重要一步,并為需要精確空間控制的應用打開了新的可能性。
本文轉自AI生成未來 ,作者:AI生成未來
