FLUX加持大幅提升渲染質量和控制能力!浙大&哈佛提出3DIS升級版3DIS-FLUX
文章鏈接:https://arxiv.org/pdf/2501.05131
項目鏈接:https://limuloo.github.io/3DIS/
亮點直擊
- 3DIS的創新:通過深度驅動的解耦生成框架,大大降低了對計算資源的需求,并解決了適配器方法的重新訓練問題。
- FLUX的集成:3DIS-FLUX利用FLUX模型提升了渲染質量和控制能力,超越了傳統的U-Net架構。
- 訓練-free細節渲染:通過細致控制FLUX模型中的Attention機制,成功實現了對每個實例細節的精確渲染,避免了額外的訓練負擔。
- 性能與質量雙重提升:3DIS-FLUX在多個基準測試中顯示出比現有方法更好的實例成功率和更高的圖像質量。
總結速覽
解決的問題:
- 適配器方法的挑戰:當前的MIG方法通常基于適配器,這要求在每次推出更先進的模型時重新訓練新的適配器,消耗大量資源。此外,高質量的實例級標注數據難以獲得。
- 計算資源和數據依賴:適配器方法需要為不同的模型進行重新訓練,這對資源有限的用戶造成了困擾;同時,實例級別的標注數據難以獲得。
提出的方案:
- 3DIS框架:通過將MIG過程分為兩個階段:1) 基于深度的場景構建;2) 利用預訓練的深度控制模型進行細節渲染,減輕了對大量訓練數據和計算資源的依賴。特別地,3DIS在場景構建階段只需要訓練深度生成模型。
- 3DIS-FLUX擴展:在3DIS框架基礎上,引入FLUX模型用于增強渲染能力,利用FLUX.1-Depth-dev模型進行深度圖控制的圖像生成,同時通過訓練-free的細節渲染器對實例屬性進行精細化控制,確保每個實例的細節符合布局信息。
應用的技術:
- 3DIS框架:將MIG分為深度生成和細節渲染兩個獨立的階段,前者使用布局到深度圖的生成模型,后者利用預訓練的深度控制模型進行細節渲染。
- FLUX模型:作為基于Diffusion Transformer(DiT)架構的模型,FLUX具有比傳統U-Net架構更強的渲染能力和控制能力。特別是在3DIS-FLUX中,FLUX被用來生成基于深度圖的圖像,并通過約束Joint Attention機制精確渲染每個實例的細節。
- 訓練-free的細節渲染器:通過約束FLUX的Joint Attention機制,確保每個實例的圖像tokens僅關注自己的text tokens,從而精確渲染實例屬性。
達到的效果:
- 提高渲染精度:3DIS-FLUX在COCO-MIG基準測試中,相比原始的3DIS方法(使用SD2和SDXL),實例成功率(ISR)提高了6.9%。相比于訓練-free的SOTA方法Multi-Diffusion,ISR提高了41%以上,超越了當前的SOTA適配器方法InstanceDiffusion(提高了12.4%)。
- 圖像質量提升:FLUX模型的引入大幅提高了圖像質量,3DIS-FLUX在渲染效果上超過了其他方法。
方法
前提
FLUX是一種最新的最先進的擴散Transformer(DiT)模型,相比于以前的模型,它生成的圖像質量更高,并展示了強大的文本控制能力。給定輸入文本,FLUX 首先使用 T5 文本編碼器將其編碼為文本嵌入。然后,將這個文本嵌入與圖像嵌入連接,進行聯合注意力機制。經過幾輪聯合注意力后,FLUX 模型解碼輸出的圖像嵌入,生成與輸入文本相對應的高質量圖像。
問題定義
概述
下圖 2 展示了 3DIS-FLUX 的概述。與原始 3DIS 相似,3DIS-FLUX 將多實例生成解耦為兩個階段:生成場景深度圖和渲染細粒度細節。在第一階段,3DIS-FLUX 使用來自 3DIS 的布局到深度模型生成基于用戶提供的布局的場景深度圖。在第二階段,3DIS-FLUX 使用 FLUX.1-depth-dev模型從場景深度圖生成圖像,從而控制生成圖像的布局。為了進一步確保每個實例的細粒度屬性得到準確渲染,3DIS-FLUX 引入了細節渲染器,該渲染器在聯合注意力過程中根據布局信息約束注意力掩碼。
FLUX 細節渲染器
動機
給定第一階段生成的場景深度圖,FLUX.1-depth-dev 模型(BlackForest,2024)能夠生成符合指定布局的高質量圖像。在僅涉及單個實例的場景中,用戶可以通過描述一個全局圖像文本來實現精確渲染。然而,當嘗試用一個全局文本描述準確地渲染多個實例時,會遇到挑戰。例如,在上面圖 2 所示的案例中,使用像“一個橙色杯子,一個黃色杯子,一個藍色杯子”這樣的描述渲染場景深度圖中的每個“杯子”時,會遇到困難。這種方法常常導致顏色不一致的問題,例如原本應為藍色的杯子被渲染為橙色,下圖 4 中有更多例子說明了這個問題。因此,將空間約束整合到 FLUX 模型的聯合注意力過程中對于準確渲染多個實例至關重要。為了解決這些問題,本文引入了一個簡單但有效的 FLUX 細節渲染器,大大提高了渲染精度。
準備工作
控制圖像嵌入的注意力
FLUX 模型通過多步采樣生成圖像。
控制文本嵌入的注意力
實驗
實現細節
實驗設置
基準方法
將3DIS 方法與最先進的多實例生成方法進行了比較。比較中涉及的方法包括無訓練的方法:BoxDiffusion和 MultiDiffusion;以及基于適配器的方法:GLIGEN、InstanceDiffusion和 MIGC。
評估基準
在 COCO-MIG基準上進行了實驗,以評估模型控制實例位置和準確渲染每個生成實例的細粒度屬性的能力。為了進行全面評估,每個模型在基準上生成了 750 張圖像。
評估指標
使用以下指標來評估模型:
- 平均交并比(MIoU),衡量生成的實例位置與目標位置之間的重疊度;
- 實例成功率(ISR),計算正確定位且具有準確屬性的實例比例。
比較
與最先進方法的比較
下表 1 中展示的結果表明,3DIS 方法不僅展現了強大的位置控制能力,還具有穩健的細節渲染能力。值得注意的是,3DIS 的整個實例屬性渲染過程是不需要訓練的。與之前的最先進無訓練方法 MultiDiffusion 相比,3DIS-FLUX 在實例成功率(ISR)上提高了 41%。此外,與需要訓練的 SOTA 適配器方法 InstanceDiffusion 相比,3DIS-FLUX 在 ISR 上提高了 12.4%。更重要的是,3DIS 方法并不與現有的適配器方法互斥。例如,3DIS+GLIGEN 和 3DIS+MIGC 的組合在性能上超越了單獨使用適配器方法,表現更加優越。
下圖 3 提供了 3DIS 與其他最先進方法的視覺對比,結果表明,3DIS 不僅在場景構建上表現出色,而且在實例細節渲染上也有強大的能力。此外,3DIS 與各種基礎模型兼容,提供了比以前方法更廣泛的應用性。
不同模型的渲染比較
如表 1 所示,采用更強大的模型顯著提高了渲染成功率。例如,使用 FLUX 模型進行渲染比使用 SD1.5 模型的實例成功率高出 9.9%。
消融研究
FLUX 細節渲染器
前面圖 4 的結果表明,如果不使用細節渲染器來管理 FLUX 模型的聯合注意力過程,在多實例場景中成功渲染每個實例將變得非常困難。下表 2 的數據表明,引入細節渲染器可以將實例成功率(ISR)提高 17.8%,成功率(SR)提高 12.2%。此外,圖 4 的結果還表明,加入細節渲染器不會顯著降低圖像質量。
控制圖像嵌入的注意力
表 2 的結果顯示,在聯合注意力機制中,控制每個圖像標記僅關注其對應的實例描述標記(即 I2T 控制)對于成功渲染每個實例至關重要,這使得實例成功率(ISR)提高了 19.1%。此外,在過程的早期步驟中,限制每個實例的圖像標記僅關注屬于同一實例的其他圖像標記(即 I2I 控制)也帶來了顯著的改進,使 ISR 提高了 7.5%。
控制文本嵌入的注意力
與使用 CLIP 作為文本編碼器的模型(如 SD1.5、SD2和 SDXL )不同,FLUX 使用 T5 文本編碼器。該編碼器僅在文本數據上進行預訓練,生成的嵌入不包含視覺信息。因此,在聯合注意力機制中,在多實例上下文中對文本標記施加約束變得尤為重要。正如前面表 2 和圖 5 的結果所示,在聯合注意力機制中,如果不對文本標記施加約束—允許一個實例的文本標記關注其他實例的文本標記—會顯著降低渲染成功率,ISR 減少了 16.3%。此外,我們的分析還發現,添加約束,使得每個實例的文本標記僅關注其對應的圖像標記,并未帶來顯著的改進。
結論
3DIS-FLUX,這是對先前 3DIS 框架的擴展。原始的 3DIS 探索了一種僅使用 U-net 架構的免訓練渲染方法。與之相比,3DIS-FLUX 利用了最先進的 DiT 模型 FLUX 進行渲染。在 COCO-MIG 數據集上進行的實驗表明,使用更強大的 FLUX 模型進行渲染使得 3DIS-FLUX 顯著優于先前的 3DIS-SDXL 方法,甚至超越了最先進的基于適配器的 MIG 方法。3DIS-FLUX 的成功突顯了 3DIS 框架的靈活性,它能夠快速適應各種新的、更強大的模型。預計 3DIS 將使用戶能夠利用更廣泛的基礎模型進行多實例生成,并擴展其在更多應用場景中的適用性。
本文轉自AI生成未來 ,作者:AI生成未來
