自回歸扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到圖像生成框架
文章鏈接:https://arxiv.org/pdf/2407.07614
github鏈接:https://github.com/fusiming3/MARS
亮點直擊
- MARS,一個從自回歸預訓練LLM中改編而來的創新框架,專用于文本到圖像(T2I)生成任務。
- 為了確保保留NLP能力,同時為模型配備先進的視覺生成和理解能力,設計了一個名為SemVIE的模塊,該模塊在預訓練LLM的注意力塊中添加了并行的視覺專家。
- MARS放大了自回歸方法在T2I生成和聯合圖像-文本合成中的靈活性,并具有擴展到任何任務的潛力。
- 提出了一種多階段的細化訓練策略,大大增強了MARS的指令跟隨能力及其生成高質量細節豐富圖像的能力。
- MARS在提示理解和跟隨方面表現出色,例如能夠處理長而復雜的自然語言輸入。此外,它具有遵循英文和中文提示的雙語能力。
- 該框架的性能通過一系列評估指標得到驗證,即MS-COCO基準測試、T2I-CompBench和人類評估。
自回歸模型在語言生成領域取得了顯著進展,但在圖像合成領域的表現卻不如擴散模型。本文介紹了MARS,一種用于文本到圖像生成的新框架,該框架結合了專門設計的語義視覺語言集成專家(Semantic Vision-Language Integration Expert, SemVIE)。它通過獨立處理語言和視覺信息來整合預訓練的LLM——凍結文本組件,同時微調視覺組件。這種方法保留了LLM的自然語言處理能力,同時賦予其卓越的視覺理解能力。基于強大的預訓練模型Qwen-7B,MARS在生成能力上脫穎而出,能夠處理對應英文和中文語言提示的生成任務,并具備聯合圖像和文本生成的能力。
這一框架的靈活性使其能夠遷移到任何任務的適應性。此外,MARS采用了多階段訓練策略,首先通過互補的雙向任務建立強大的圖文對齊,然后專注于精細化文本到圖像的生成過程,顯著提高了文本和圖像的同步性和圖像細節的細膩程度。值得注意的是,MARS僅需SD1.5所需GPU天數的9%,卻在各種基準測試中取得了顯著成果,展示了訓練效率和在各種應用中快速部署的潛力。
方法
總體框架
MARS,一個將大語言模型(LLM)與視覺生成能力結合在統一框架內的創新系統。MARS體現了一種平衡的多模態架構,包含了獨特但協調一致的視覺和語言專家模型,如下圖3所示。
跨模態的一致性通過兩種模塊中的并行結構設計得以維持。語言模塊利用預訓練的LLM(如Qwen-7B)的能力,而視覺模塊與語言模型同時初始化。在訓練階段,語言組件保持靜止,優化僅限于視覺領域內的選定權重,這些權重專門為圖像合成任務校準。該架構的有效性進一步通過豐富的視覺詞匯和SemVIE的引入得到增強,SemVIE融合了LLM復雜的語言解釋能力與視覺感知能力。這種結合不僅利用了LLM固有的強大自然語言處理能力,還通過大量成對的圖像-文本示例,增強了模態間的一致性,促進了連貫視覺內容的生成。
語義視覺語言集成專家
分詞
在本研究中,預訓練的LLM Qwen-7B 作為基礎語言框架,利用其分詞器將文本數據拆解為一系列代表性tokens,記作 。同時,在視覺模態中,使用受VQ-GAN架構啟發的編碼器將圖像 轉換為特征圖 ,其中 ,P預定義為量化參數16,D表示特征維度。特征圖 隨后使用視覺碼本 VQ-GAN 進行量化,將其映射為一系列離散的代碼索引 。這個過程有效地將256×256像素的圖像重構為一系列256個token,其中每個token代表16×16像素的圖像段。值得注意的是,視覺碼本由8192個唯一編碼組成。這些視覺token在框架中被token為 。
在MARS的詞匯表中,這些視覺組件與傳統的文本token交織在一起,形成一個綜合的多模態詞匯表。語言LLM的原始詞匯表包含151,936個條目,結合視覺碼本和6個專門設計用于表示圖像序列開始和結束的特殊token后,形成了一個160,136大小的多模態詞匯表。在MARS的架構中,由VQ-GAN范式合成的視覺token與文本token享有同等地位。視覺詞匯的初始嵌入是從預訓練文本token的聚合均值嵌入中得出的,建立了跨模態集成的基礎。
語義視覺語言集成專家
MARS架構包含L層SemVIE,這是一個專門設計的多模態專家混合體(mm-MoE),能夠熟練處理視覺和語義token。SemVIE的核心是Attention-MoE和Feed-Forward Network(FFN)-MoE模塊。在每個Transformer模塊的層歸一化步驟之后,專門的路由模塊被戰略性地放置。這一路由機制旨在將每個輸入token分配給最適合其處理的專家模型。共享架構框架的一個顯著方面是因果多頭注意力和層歸一化模塊在語言和視覺模態中的普遍應用,體現了一種統一的方法論來并行處理多模態數據。Attention-MoE的過程如下:
其中,C表示連接操作,、 和 是從預訓練的LLM中凍結并加載的參數。、 和 是可訓練的,并以預訓練的語義LLM進行初始化。然后,MoE-FFN模塊進一步處理多模態token:
其中,表示連接操作,和共享相同的架構,是可訓練的。SemVIE模塊作為MARS的基石,受益于Attention-MoE和FFN-MoE模塊的協同集成,實現了多模態數據流的有效融合。此集成利用了預訓練LLM所提供的深刻語言見解,從而借助高級語言理解能力來豐富視覺理解。為了使模型能夠同時預測視覺token和文本token,除了使用原始的LLM模型頭(稱為文本頭)之外,還在模型中添加了一個視覺頭。值得注意的是,文本token和視覺token分別通過文本頭和視覺頭處理,以獲得logits,分別記為和。然后,logits在最后一個維度上連接,并通過softmax層以獲得每個token的詞匯概率分布。
多階段細化
階段I:文本到圖像對齊的預訓練
首先通過兩個不同的任務來優化MARS:文本到圖像生成和圖像描述。這個細化過程利用了一種自回歸的方法來進行NTP。該過程涉及一個大約2億對文本-圖像對的數據集,每個圖像的分辨率為256×256像素。
階段II:高質量數據對齊
為了提高圖像合成的保真度,這個階段繼續使用NTP從文本描述生成圖像。與階段I不同,階段II使用的數據集包括5000萬對文本和相應的圖像,每對數據都經過美學評估模型的精心挑選。與這些圖像配對的描述性標題來自CogVLM,根據明確的指令生成。為了減輕由于圖像裁剪導致的視覺內容和文本描述之間的潛在差異,實施了一種標準化程序,將每張圖像的短邊調整為256像素。在保持原始縱橫比的同時,這一措施確保了完整圖像內容的保留。然而,這導致圖像序列長度的變化。為了解決這個問題,在標題中包含了分辨率信息,以指定生成圖像的期望序列長度。
階段III:高分辨率細化
受SD-XL和DeepFloyd方法的啟發,利用級聯超分辨率策略進一步增強MARS。低分辨率生成的圖像及其對應的標題作為超分辨率模型的輸入。超分辨率模型在基礎模型訓練完成后進行訓練。在這個階段,采用下一個Ktoken預測(NTKP)方法來預測更高分辨率的圖像。輸出圖像的長邊為1024像素,同時保持原始縱橫比。為了控制生成圖像的分辨率,采用與階段II相同的策略。使用了一千萬組(低分辨率圖像、標題、高分辨率圖像)樣本來訓練級聯超分辨率模型。
數據集構建
研究中包含的開源英文數據集有LAION-400M、CC3M、CC12M、LAION-COCO、COYO和Datacomp。研究者們啟動了一個過濾過程,以排除分辨率低于256像素或長寬比大于2的圖像。隨后,根據它們的CLIP評分和美學評估來選擇圖像。這個方法產生了一個包含1.5億對圖像-文本的龐大語料庫。此外,還利用了5000萬內部數據,這些數據主要包括帶有中文標題的圖像-文本對,總計約2億對。
粗粒度的圖像-文本數據表現出顯著的噪聲,明顯體現在圖像和文本之間的不對齊、描述內容不足、不相關的標題以及圖像質量低下。在后續的文本到圖像(T2I)指令跟隨訓練階段中,為了解決這些問題,通過標題重寫策略增強了文本的相關性和信息密度。具體來說,部署了一個預訓練的多模態標題模型CogVLM,為精選的圖像重新生成細粒度的標題。這些新生成的標題詳細描述了圖像的各個方面,包括物體的位置、屬性、背景和風格元素,平均長度約為110個單詞。下圖4展示了一個示例。這種方法為5000萬張圖像生成了細粒度的標題。
實驗
實驗細節
實現細節
采用AdamW作為優化器,beta參數設置為0.95,權重衰減設置為0.1。峰值學習率設定為,并采用了0.01的預熱策略。對于分辨率為256×256像素的圖像,每個GPU的批量大小設置為64,而對于512×512像素的圖像,批量大小設置為24,導致總批量大小分別為4096和1536。訓練使用了DeepSpeed的ZeRO-3優化。模型的第一階段、第二階段和第三階段的訓練輪數分別配置為1、2和1輪。
評估基準
選擇了三個基準進行比較,包括:
- MSCOCO數據集。參考之前的工作,使用從MSCOCO 2014評估數據集中抽取的標題生成了30,000張圖像,并評估生成圖像的樣本質量和圖像-文本對齊情況。具體來說,沒有對生成輸出的圖像進行選擇性策劃。評估使用了Frechet Inception Distance (FID)和CLIP Score。
- T2I-CompBench。使用各種組合提示來評估文本屬性,包括顏色、形狀和紋理等方面,以及屬性綁定。
- 用戶研究。隨機選擇了100個提示進行評估,隨后邀請了30名參與者進行用戶研究。
性能比較與分析
MSCOCO基準
使用Frechet Inception Distance (FID)來評估合成圖像的質量。如下表1所示,提出的MARS僅用7B可訓練參數在FID上得分6.92,取得了顯著成就。與自回歸模型Parti相比,使用了更少的參數(14B vs 20B)和更小的數據規模(0.2B vs 4.8B),取得了具有競爭力的性能(6.92 vs 7.22)。相對于擴散模型SDv1.5,在訓練預算較少(587 vs 6250 A100 GPU天)的情況下,取得了更優的性能(6.92 vs 9.22)。這些結果突顯了本文混合自回歸模型的效率。
此外,利用CLIP-Score來評估文本條件與相應生成圖像的對齊情況。當選擇生成圖像時,MARS在CLIP評分最高時取得了33.10的CLIP評分和3.51的FID,表明其在生成與文本提示語義內容高度一致的視覺上具有顯著效果。
T2I CompBench性能
在T2I-CompBench的評估中,選擇了一些當代的文本生成圖像模型進行嚴格評估。這些模型包括Composable Diffusion、Structured Diffusion、Attn-Exct v2、GORS、DALLE 2、PixArt-α、SD1.5和SD-XL。下表2中呈現的實證數據展示了MARS在T2I-CompBench基準測試中的卓越表現,突出其在屬性綁定、物體關系描述和復雜組合的合成方面的熟練度。值得注意的是,MARS在顏色和紋理表示的保真度方面顯示出顯著的改進,分別比DALLE 2提高了11.63%和7.49%。與DALLE 2相比,MARS在空間和非空間度量上也有顯著提升,分別提高了6.41%和1.67%。此外,與最近集成了T5-XL文本編碼器的PixArt-α模型相比,MARS在多個維度上表現更佳。具體而言,MARS在顏色(69.13%)和紋理(71.23%)準確性方面取得了最高分,超過了PixArt-α的68.86%和70.44%。這些結果表明,在自回歸框架中結合LLM表示和視覺token可以顯著提高生成圖像的質量以及視覺內容與相應文本敘述之間的對齊度。
用戶研究
研究者們進行了一項用戶研究,評估現有方法和MARS的各種組合。每個組合基于樣本質量和圖像-文本對齊兩個標準進行評估。60名用戶被要求評估具有相同文本的圖像的美學吸引力和語義準確性,確定哪個圖像在這些標準上表現更佳。隨后,計算每個模型的百分比分數,如下圖5所示。結果表明,MARS在質量和對齊方面相比PixelArt-α分別獲得了66.7%和63.3%的更高投票偏好。此外,與LAVIT和UIO-2相比,MARS顯示出具有競爭力的表現。
視覺分析
下圖6展示了MARS框架的高級圖像合成能力,能夠生成具有顯著細節和符合文本描述的視覺效果。這種能力可能歸因于從大語言模型(LLMs)中提取的高級文本表示,當與結構化的多層次訓練策略相結合時,顯著提高了模型的精度和文本與圖像之間的對齊度。MARS的多階段訓練策略逐步優化了文本提示與視覺輸出之間的相關性,使得生成的圖像不僅反映了文本的意圖,還展示了類似于真實照片的深度細節。借助LLMs的深層語義理解,MARS能夠熟練地將復雜的文本描述轉換為連貫且富有上下文的視覺敘述,從而展示了一個結合技術效率與藝術表現的生成模型。
多語言生成
語言模型核心是Qwen架構,其本質上設計支持多語言并包含了一個綜合的中英雙語數據集。在訓練階段,刻意包括了少量但顯著比例的中文內部數據。正如下圖7所示,盡管中文語料庫相對稀缺,本文的模型在中文文本到圖像合成方面表現出色。這表明MARS已有效掌握了跨語言邊界解釋概念的能力,確保圖像和文本在單一表示空間內融合,這是由新穎的混合機制促成的。
消融研究
對上述關鍵部分進行了消融研究,包括模型設計和多階段訓練。
SemVIE的效果
下表3中呈現的結果是在Stage-I階段獲得的。沒有視覺專家的配置(w/o Visual Expert),即在視覺和語言專家之間共享權重,導致結果顯著惡化,FID下降了1.89。這一顯著的下降突顯了利用專門視覺專家的好處。對齊視覺和語言模態的挑戰強調了需要專門的架構來處理這些數據類型之間的內在差異。
多階段訓練的效果
下表4進一步探討了不同訓練階段的效果。
結果表明,每個階段的訓練都對模型有積極影響。在MS-COCO基準測試中,Stage II相比Stage I提高了1.22的FID,而Stage III相比Stage II進一步提高了0.10。不同階段的可視化結果如圖8所示。觀察到,Stage I和Stage II階段生成的圖像缺乏細節,而Stage III階段的圖像質量最佳。
進一步分析
圖像和文本聯合生成能力。MARS不僅限于文本到圖像的生成,還支持同時生成文本和圖像,例如從文本和圖像輸入生成多個文本和圖像輸出,重點關注兩種模態之間的相關性、一致性和連貫性。由于在MARS的預訓練階段保留了LLM的完整性,系統在涉及同時創建文本和圖像的任務時處于有利位置。例如,在食譜生成領域,利用文本-圖像預訓練模型,用一個包含1萬個食譜的數據集對其進行微調。這使得模型能夠生成包括逐步說明和相應插圖的全面烹飪教程。如下圖9所示,在接收到需要圖像的食譜標題和相關說明時,模型同時生成詳細的文本內容(如成分清單和操作步驟)以及每個階段的視覺表現。值得注意的是,MARS將文本和圖像無縫融合成連貫輸出的能力不僅限于食譜生成,還可以推廣到其他需要聯合文本和圖像生成任務的領域。
結論
本研究介紹了MARS,這是一個創新的自回歸框架,既保留了預訓練大語言模型(LLM)的能力,又融入了頂級的文本到圖像(T2I)生成技能。MARS經過訓練,在T2I任務中表現出色。引入了Semantic Vision-Language Integration Expert(SemVIE)模塊,它是MARS的關鍵,優化了文本和視覺token空間的融合,并為多模態學習帶來了新的見解。MARS在多個基準評估中展示了卓越的性能,如MSCOCO基準測試、T2I-CompBench和人類評估。預訓練的Qwen模型使MARS能夠生成中英雙語圖像,無縫地融合中文和英文。此外,MARS能夠熟練處理聯合圖像-文本生成任務,顯示了其在任意-任意范式應用中的潛力。
本文轉自 AI生成未來 ,作者:Wanggui He等
