?顏水成團隊新作:AI手機迎來重大技術進展!Meissonic:讓移動成像技術飛躍
文章鏈接:https://arxiv.org/pdf/2410.08261
模型鏈接:https://huggingface.co/MeissonFlow/Meissonic
在線Demo鏈接:https://huggingface.co/spaces/MeissonFlow/meissonic
亮點直擊:
- 增強型Transformer架構:通過結合多模態和單模態Transformer層,提升了MIM模型的訓練效率和性能,特別是在跨模態信息處理和視覺表示的細化方面,取得了顯著提升。
- 高級位置編碼與動態掩碼率:采用Rotary Position Embeddings(RoPE)解決高分辨率下的上下文解耦問題,并通過動態掩碼率條件提升采樣過程中的圖像細節和質量。
- 高質量訓練數據:整理高質量數據集,并結合優化的訓練策略,顯著提升了模型的生成能力。
- 微觀條件和特征壓縮層:利用微觀條件(如分辨率、裁剪坐標等)增強高分辨率訓練的穩定性,結合特征壓縮層確保在1024×1024分辨率下的計算效率。
- 高效生成與硬件友好:Meissonic在僅有10億參數的情況下,能在消費級GPU上生成媲美SDXL等大型模型的高質量圖像,且無需額外優化。
驚艷的效果先睹為快
總結速覽
解決的問題:
當前的擴散模型(如Stable Diffusion)在視覺生成上取得了重大進展,但其生成范式與自回歸語言模型有本質區別,導致統一語言-視覺模型的開發變得復雜。此外,像LlamaGen這樣基于離散VQVAE tokens進行自回歸圖像生成的方法效率低下,處理大量tokens需要較長時間。
提出的方案:
本文提出了Meissonic,一種提升非自回歸掩碼圖像建模(MIM)的文本到圖像生成模型。通過采用全面的架構創新、先進的位置編碼策略以及優化的采樣條件,Meissonic顯著提高了MIM的性能和效率。
應用的技術:
- 綜合性架構創新
- 高級位置編碼策略
- 優化采樣條件
- 高質量訓練數據
- 基于人類偏好分數的微觀條件
- 特征壓縮層
達到的效果:
Meissonic模型在生成高質量、高分辨率圖像時,不僅達到了SDXL等現有擴散模型的水平,甚至在某些方面有所超越。模型能夠生成1024×1024分辨率的圖像,實驗結果證明其在文本到圖像合成領域的潛力。
方法
動機
近期文本生成圖像的突破主要得益于擴散模型,如Stable Diffusion XL,在圖像質量、細節和概念一致性方面設立了事實標準。然而,這些模型與自回歸語言模型的工作方式顯著不同,導致在視覺和語言任務上實現統一方法面臨挑戰。這種差異不僅使這些模態的整合變得復雜,還凸顯了需要創新的方法來彌合它們之間的差距。特別是,非自回歸的 Masked Image Modeling(MIM)技術,例如MaskGIT和MUSE,展現了高效圖像生成的潛力。盡管MIM方法具有一定的前景,它們仍面臨兩個關鍵限制:
(a) 分辨率限制。當前的MIM方法只能生成最大分辨率為512×512像素的圖像。這一限制阻礙了它們的廣泛應用和進一步發展,尤其是在文本生成圖像的社區中,1024×1024分辨率逐漸成為標準。
(b) 性能差距?,F有的MIM技術尚未達到領先擴散模型如SDXL所表現的性能水平,特別是在圖像質量、復雜細節和概念表達等關鍵領域表現不佳,而這些對實際應用至關重要。
這些挑戰需要探索新的方法。本文的目標是使MIM能夠高效生成高分辨率圖像(如1024×1024),同時縮小與頂級擴散模型的差距,并確保其計算效率適合消費級硬件。通過Meissonic,希望推動MIM方法的邊界,并將其帶到文本生成圖像領域的前沿。
模型架構
下圖2展示了Meissonic模型的整體結構。通過一個集成框架促進高效的高性能文本生成圖像,該框架包括一個CLIP文本編碼器、一個向量量化(VQ)圖像編碼器和解碼器以及一個多模態Transformer骨干網。下圖2展示了模型的整體結構。
靈活且高效的文本編碼器。與使用T5-XXL或LLaMa等大型語言模型編碼器不同,本模型使用來自最先進的CLIP模型的單一文本編碼器,具有1024的潛在維度,并進行微調以優化T2I(文本生成圖像)性能。盡管這一決定可能限制模型完全理解較長文本提示的能力,但觀察表明,排除像T5這樣的大規模文本編碼器并不會降低圖像的視覺質量。此外,這種方法顯著減少了GPU內存需求和計算成本。值得注意的是,離線提取T5特征大約需要11倍的處理時間和6倍的存儲空間,而采用CLIP文本編碼器進一步體現了本文設計的高效性。
多模態Transformer骨干網絡用于 Masked Image Modeling。本文的Transformer架構基于多模態Transformer框架,結合了采樣參數r來編碼采樣參數,并使用Rotary Position Embeddings(RoPE)進行空間信息編碼。引入了特征壓縮層,以高效處理包含大量離散標記的高分辨率生成任務。這些層將嵌入特征從64×64壓縮到32×32后再通過Transformer處理,隨后通過特征解壓縮層恢復到64×64,從而減輕計算負擔。為增強訓練的穩定性并減輕NaN損失問題,遵循LLaMa的訓練策略,在分布式訓練過程中實現梯度裁剪和檢查點重載,并將QK-Norm層集成到架構中。
多樣化微條件。為了增強生成性能,引入了其他條件,例如原始圖像分辨率、裁剪坐標和人類偏好評分。這些條件被轉換為正弦嵌入,并作為額外的通道與文本編碼器的最終池化隱藏狀態連接。
Masking策略。采用Chang et al.(2023)提出的方法,使用帶余弦調度的可變masking比率。從一個截斷的反余弦分布中隨機采樣遮掩比率,其密度函數如下:
多模態Transformer用于 Masked Image Modeling
Meissonic采用多模態Transformer作為其基礎架構,并通過創新定制模塊來應對高分辨率 Masked Image Modeling中的獨特挑戰。為 Masked Image Modeling引入了以下幾項專門設計:
- Rotary Position Embeddings (RoPE): RoPE在大語言模型 (LLM) 中展示了出色的性能。一些研究嘗試將 1D RoPE擴展至2D或3D以用于圖像擴散模型。本文的研究發現,由于用于將圖像轉換為離散標記的高質量圖像標記器,原始的1D RoPE顯示出了令人滿意的效果。1D RoPE能夠順利過渡從256×256到512×512階段,并同時提升了模型的生成性能。
- 更深的單模態Transformer模型: 盡管多模態Transformer模塊展示了良好的表現,實驗表明,將多模態塊減少為單模態塊配置可以提供更穩定且計算效率更高的T2I模型訓練方法。因此,在網絡的初始階段采用多模態Transformer塊,隨后轉換為完全的單模態Transformer塊。研究表明,約1:2的塊比率是最佳的。
- 帶有人類偏好評分的微條件: 實驗表明,結合三個微條件對于實現穩定且可靠的高分辨率 Masked Image Modeling至關重要:原始圖像分辨率、裁剪坐標和人類偏好評分。原始圖像分辨率有效地幫助模型隱式過濾低質量數據,并學習高質量、高分辨率數據的特性,而裁剪坐標通過改善裁剪塊的圖像條件與語義條件之間的一致性,增強了訓練的穩定性。在最終階段,利用人類偏好評分來有效提升圖像質量,使用由人類偏好模型提供的信號引導模型輸出,模仿和接近人類的審美偏好。
- 特征壓縮層: 現有的多階段方法,如 MUSE和 DeepFloyd-XL,采用多個子網絡的級聯來實現更高分辨率的圖像生成。這種多階段訓練引入了不必要的復雜性,阻礙了高保真、高分辨率圖像的生成。相反,主張在微調階段整合簡化的特征壓縮層,以促進高效的高分辨率生成過程學習。此方法類似于輕量級的高分辨率適配器,該模塊在穩定擴散模型中被廣泛探索和集成。通過將基于2D卷積的特征壓縮層融入Transformer骨干中,我們在Transformer層之前壓縮特征圖,并在Transformer層之后將其解壓,從而有效地解決了效率和分辨率過渡的挑戰。
訓練細節
Meissonic 的構建使用了 CLIP-ViT-H-142 文本編碼器、預訓練的 VQ 圖像編碼器和解碼器,以及定制的 基于 Transformer 的骨干網絡。模型采用 無分類器指導(CFG) 和交叉熵損失進行訓練。訓練過程分為三個分辨率階段,利用公共數據集和整理的數據。
訓練階段:
- Meissonic-256:第一個訓練階段使用256×256分辨率,批量大小為 2,048,訓練 100,000 步。
- Meissonic-512:第二個階段在512×512分辨率下進行,批量大小為 512,繼續訓練 100,000 步。
- Meissonic-1024:最后,模型在1024×1024分辨率下訓練,批量大小為 256,訓練 42,000 步。
訓練過程具有資源效率。與 Stable Diffusion 相比,Meissonic 的訓練資源效率顯著更高,約需 48 個 H100 GPU 天,表明可以以顯著降低的計算成本開發出具備生產能力的圖像合成基礎模型。關于這一比較的更多細節見下表 1。
逐步高效的訓練階段分解
本文的方法系統地將訓練過程分解為四個精心設計的階段,能夠逐步構建和完善模型的生成能力。這些階段結合對特定組件的精確增強,有助于合成質量的持續改善。鑒于SDXL未披露其訓練數據的詳細信息,我們的經驗對指導社區構建SDXL級別的文本到圖像模型尤為重要。
第一階段:從大量數據中理解基本概念
先前的研究表明,LAION 的原始標題對于訓練文本到圖像模型是不夠的,通常需要 MLLMs(如 LLaVA)提供的標題精煉。然而,這一解決方案計算資源需求高且耗時。雖然一些研究利用了大量注釋的 SA-10M數據集,但發現,SA-10M 并沒有全面覆蓋基本概念,尤其是關于人臉的概念。因此,采用了一種平衡策略,利用原始高質量 LAION 數據進行基礎概念學習,使用較低的分辨率以提高效率。具體而言,我們通過過濾掉美學評分低于 4.5、帶水印概率超過 50% 的圖像,以及 Kolors 中列出的其他標準,精心策劃了去重后的 LAION-2B 數據集。這一細致選擇產生了大約 2 億張圖像,在這一初始階段以 256×256 的分辨率用于訓練。
第二階段:使用長提示對齊文本與圖像
在第一階段,本文的方法并未依賴高質量的圖像-文本配對數據。因此,在第二階段,我們專注于提高模型解讀長而詳細的提示的能力。我們對初始 LAION 數據集進行了更嚴格的過濾,僅保留美學評分高于 8 的圖像,以及 Kolors(2024)中列出的其他標準。此外,本文還納入了 120 萬個合成圖像-文本對,配有超過 50 字的精煉標題,這些數據主要來自公開可用的高質量合成數據集,并補充了我們內部 600 萬數據集中其他高質量圖像。此匯總結果大約形成了 1000 萬個圖像-文本對。值得注意的是,保持模型架構不變,同時將訓練分辨率提高至 512×512,使模型能夠捕捉到更復雜的圖像細節。觀察到,模型捕捉抽象概念和準確響應復雜提示的能力顯著提升,包括多樣的風格和幻想角色。
第三階段:掌握特征壓縮以實現高分辨率生成
高分辨率生成仍然是 MIM 中的一個未被充分探索的領域。與依賴外部超分辨率(SR)模塊的方法(如 MUSE 或 DeepFloyd-XL )不同,展示了通過特征壓縮實現高效的 1024×1024 生成是可行的。通過引入特征壓縮層,我們實現了從 512×512 到 1024×1024 生成的無縫過渡,且計算成本極低。在這一階段,我們進一步通過基于分辨率和美學評分進行過濾,選擇了約 10 萬個高質量、高分辨率的圖像-文本對,這些數據來自第二階段使用的 LAION 子集。結合剩余的高質量數據,訓練樣本總數約為 600 萬個,以 1024 分辨率進行訓練。
第四階段:細化高分辨率美學圖像生成
在最后階段,我們使用小學習率對模型進行微調,而不凍結文本編碼器,并將人類偏好分數作為微觀條件。這可以顯著提升模型在高分辨率圖像生成中的表現。這一針對性的調整顯著增強了模型生成高分辨率圖像的能力,同時提高了多樣性。訓練數據與第三階段相同。
結果
定量比較
傳統的圖像生成模型評估指標,如 FID 和 CLIP Score,對視覺美學的相關性有限,正如 Podell et al.(2024)、Chen et al.(2024)、Kolors(2024)和 Sehwag et al.(2024)所強調的。因此,使用人類偏好分數版本 2(HPSv2)、GenEval和多維人類偏好分數(MPS)來報告本文模型的性能,具體數據見下表 2、3 和 6。
在讓 Meissonic 更加易于公眾訪問的過程中,本文優化了模型至 10 億個參數,確保其能夠高效運行于 8GB VRAM 上,使得推理和微調都變得方便。下圖 4 提供了不同推理批次大小與 SDXL 之間的 GPU 內存消耗比較分析。下圖 5 詳細說明了每一步的推理時間。
上圖 5 展示了 Meissonic 在生成文本驅動風格藝術圖像方面的能力。下圖3展示了圖像質量和文本-圖像對齊的定性比較。
為了補充這些分析,通過 K-Sort Arena 進行人類評估,并使用 GPT-4o 評估 Meissonic 與其他模型之間的性能,見上圖 4。
所有圖表顯示,Meissonic 在人類性能和文本對齊方面與 DALL-E 2 和 SDXL 達成了具有競爭力的表現,同時展示了其效率。
zero-shot 圖像編輯
對于圖像編輯任務,使用 EMU-Edit 數據集對 Meissonic 進行基準測試,該數據集包括七種不同的操作:背景更改、綜合圖像更改、風格更改、對象移除、對象添加、局部修改,以及顏色/紋理更改。結果見下表 7。
此外,內部圖像編輯數據集中的示例,包括下圖 6 中的掩碼引導編輯和下圖 7 中的無mask編輯,進一步展示了 Meissonic 的多功能性。
值得注意的是,Meissonic 在沒有針對圖像編輯特定數據或指令數據集進行任何訓練或微調的情況下,依然達到了這樣的表現。
結論與影響
本文通過引入多個關鍵創新顯著推進了用于文本到圖像(T2I)合成的masked圖像建模(MIM)。這些創新包括:結合多模態和單模態層的Transformer架構、先進的位置信息編碼策略,以及作為采樣條件的自適應masked率。這些創新,加上高質量的精選訓練數據、漸進且高效的訓練階段分解、微條件和特征壓縮層,共同造就了 Meissonic,這是一款擁有 10 億參數的模型,能夠在高分辨率和美觀的圖像生成上超越更大的擴散模型,同時保持在消費級 GPU 上的可訪問性。評估表明,Meissonic 在性能和效率上均表現優越,標志著朝著可獲取且高效的高分辨率非自回歸 MIM T2I 模型邁出了重要一步。
更廣泛的影響:近期,離線文本到圖像應用程序已在移動設備上出現,例如 Google Pixel 9 的 Pixel Studio 和 Apple iPhone 16 的 Image Playground。這些創新反映了增強用戶體驗和隱私的日益趨勢。作為一款開創性的資源高效基礎模型,Meissonic 代表了該領域的重要進展,提供了先進的圖像合成能力,并強調用戶隱私和離線功能。這一發展不僅賦予用戶創意工具,同時確保了敏感數據的安全,標志著移動成像技術的顯著躍進。
本文轉自AI生成未來 ,作者:AI生成未來
