統一圖像編輯框架,達到閉源一流水平;高分辨率自回歸圖像生成;高低層次特征聯合的圖像生成;視頻試穿框架
Step1X-Edit: A Practical Framework for General Image Editing
2025-04-24|StepFun, |??55
???http://arxiv.org/abs/2504.17761v1????
????https://huggingface.co/papers/2504.17761????
????https://github.com/stepfun-ai/Step1X-Edit???
研究背景與意義
- 領域現狀與挑戰近年來,圖像編輯技術迅速發展,尤其是在多模態大模型(如GPT-4o、Gemini2 Flash)推動下,實現了基于自然語言的高質量圖像編輯。這些閉源模型在理解復雜編輯指令和保持圖像一致性方面表現優異,但其封閉性限制了學術界和開源社區的研究與應用推廣。相較之下,現有開源圖像編輯算法在泛化能力、編輯準確度和生成圖像質量上仍存在顯著差距。
- 研究目標本論文旨在縮小開源與閉源圖像編輯模型間的性能差距,提出一個開源的通用圖像編輯框架Step1X-Edit,兼具閉源模型的高性能和開源模型的透明性。為此,作者構建了大規模、高質量的圖像編輯數據集,并設計了一個融合多模態大語言模型(MLLM)與擴散模型的統一編輯架構,同時推出了真實用戶驅動的評測基準GEdit-Bench,推動圖像編輯技術向實用化邁進。
研究方法與創新
- 數據生成與標注創新論文提出了覆蓋11大類編輯任務的規模化數據生成管線,利用多模態大語言模型和自動化工具結合人工審核,構建了超過1百萬高質量圖像-指令-目標三元組數據集,顯著超越現有開源數據集規模與多樣性。數據標注采用多輪遞歸增強策略,結合中英雙語注釋,提升語義一致性和跨語言適用性。
- 模型架構設計Step1X-Edit將多模態大語言模型(如Qwen-VL)與基于Transformer的擴散模型(DiT)深度集成。編輯指令與參考圖像首先由MLLM解析,生成語義豐富的編輯嵌入;接著通過輕量級連接模塊精煉特征,替代傳統文本編碼器的嵌入,作為擴散模型的條件輸入。訓練時,模型采用目標圖像與參考圖像的融合視覺特征,優化編輯準確度和圖像質量,實現語義理解與視覺生成的緊密耦合。
- 創新點與優勢
- 統一框架:打破傳統模塊化設計,緊密結合語言理解與圖像生成,支持多輪交互和細粒度編輯。
- 語義引導的視覺條件:利用MLLM強大的語義推理能力,提升編輯指令的準確執行,尤其對復雜、組合性編輯表現優異。
- 大規模高質量數據支撐:數據多樣性和規模保障模型泛化能力,推動實際應用。
- 跨語言支持:支持中英文編輯指令,拓寬應用場景。
- 訓練策略:采用預訓練權重初始化,穩定且高效地提升模型性能。
實驗設計與結果分析
- 實驗設置
- 構建了真實用戶編輯指令驅動的GEdit-Bench評測集,包含606個多樣化編輯任務,涵蓋11大類編輯場景,確保評測的真實性和全面性。
- 對比對象涵蓋多個開源模型(Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen)及閉源頂尖模型(GPT-4o、Gemini2 Flash、Doubao)。
- 采用自動化多指標評價(語義一致性SQ、感知質量PQ、整體評分O)和主觀用戶偏好測試,保證評測的客觀與主觀雙重維度。
- 結果表現
- Step1X-Edit在GEdit-Bench上全面超越所有開源基線,提升幅度顯著,接近甚至部分任務超越閉源模型。特別在風格轉換、顏色調整等細節編輯上表現優異。
- 在中文編輯指令評測中,Step1X-Edit同樣表現穩定,超過Gemini2和Doubao,顯示出強大的跨語言適應能力。
- 用戶研究表明,Step1X-Edit編輯結果在視覺質量和符合用戶意圖方面獲得較高認可,主觀評分與閉源模型相當,體現了良好的用戶體驗。
- 多場景驗證
- 論文展示了豐富的編輯示例,涵蓋從物體添加、替換、移除,到材質修改、風格遷移、文本編輯等多種任務,驗證模型的通用性和實用性。
- 對比圖示清晰展示了Step1X-Edit在細節保留、語義理解和圖像美學上的優勢。
結論與展望
- 總結貢獻
- Step1X-Edit作為首個開源且性能接近閉源頂尖水平的通用圖像編輯模型,填補了開源社區與工業閉源模型之間的空白。
- 數據生成管線和GEdit-Bench基準的開放,為后續研究提供了寶貴資源和評價標準。
- 模型架構創新實現了多模態語義理解與擴散生成的深度融合,推動圖像編輯技術向更智能、更交互的方向發展。
- 局限性分析
- 盡管性能優異,某些復雜多輪交互和極端細節編輯仍有提升空間。
- 模型訓練和推理成本較高,對硬件資源要求較大,限制了部分應用場景。
- 安全策略導致部分編輯指令被拒絕響應,影響模型的開放性和靈活性。
- 未來展望
- 進一步優化模型架構,提升多輪交互和細節編輯能力,實現更自然的用戶反饋循環。
- 探索輕量化和加速推理技術,降低模型部署門檻,擴大實際應用范圍。
- 拓展多語言、多文化背景下的編輯能力,增強模型的全球適用性。
- 深化隱私保護和安全策略,兼顧開放性與合規性,促進模型的廣泛應用。
總體而言,Step1X-Edit開創了開源圖像編輯模型的新紀元,其高質量數據、創新模型設計和嚴謹評測體系,為圖像編輯領域的研究與應用提供了堅實基礎和廣闊前景。
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
2025-04-24|NEU, Meta GenAI, Meta FAIR, NUS, CUHK, U Washington|??8
???http://arxiv.org/abs/2504.17789v1????
????https://huggingface.co/papers/2504.17789???
研究背景與意義
- 研究背景自然語言處理領域中,自回歸(Autoregressive, AR)模型通過預測序列中下一個token取得了巨大成功。近年來,AR模型逐漸被應用于圖像生成,尤其是在多模態大語言模型(Multimodal Large Language Models, MLLMs)中。然而,AR模型在圖像生成中面臨的主要瓶頸是需要大量的視覺token,導致訓練和推理效率低下,且限制了生成圖像的分辨率。
- 研究意義現有AR模型難以高效生成高分辨率圖像(如2048×2048),而擴展視覺token數量則帶來計算成本的指數級增長。相比之下,擴散模型雖然在高分辨率生成上表現優異,但AR模型具有統一的多模態生成潛力。解決AR模型中視覺token數量過多的問題,有助于提升AR模型在高分辨率圖像生成中的實用性和性能,推動多模態生成技術的發展。
- 挑戰與目標
- 挑戰:視覺token數量龐大,Transformer計算復雜度呈二次方增長,限制了分辨率提升。
- 目標:設計簡潔有效的方法減少視覺token數量,提升計算效率,同時保持甚至提升生成圖像的質量和分辨率,實現AR模型高效高分辨率圖像生成。
研究方法與創新
- 核心方法——Token-Shuffle本文提出了Token-Shuffle,一種利用視覺詞匯表維度冗余的輕量級操作。該方法通過將空間鄰近的視覺token在通道維度上融合(token-shuffle),顯著減少輸入Transformer的token數量;隨后通過token-unshuffle操作恢復空間結構,保證輸出圖像的空間一致性。
- 維度冗余的發現與利用視覺編碼器生成的低維視覺token被直接映射到高維語言詞匯空間,導致維度冗余。實驗表明,視覺詞匯的維度可以壓縮8倍而不顯著影響生成質量。Token-Shuffle正是借助這一冗余,將多個空間token融合為一個復合token,減少計算量。
- 技術細節
- 融合與解耦機制:融合操作通過MLP壓縮維度并合并s×s鄰域token,解耦操作則逆向恢復。
- 訓練與推理一致性:Token-Shuffle不改變原有的自回歸預測范式,而是將下一token預測擴展為下一組復合token預測,提升效率。
- 無須額外預訓練文本編碼器,直接聯合訓練文本和視覺token,實現統一的多模態生成框架。
- 創新優勢
- 顯著減少視覺token數量,降低Transformer計算復雜度,提升訓練和推理速度。
- 支持最高2048×2048分辨率的文本到圖像生成,打破AR模型生成分辨率瓶頸。
- 保持甚至提升生成圖像質量和文本對齊度,超越現有AR模型及部分擴散模型。
- 與現有方法對比傳統方法或通過壓縮視覺token,或犧牲分辨率與質量,Token-Shuffle則通過融合鄰域token利用維度冗余,兼顧效率與質量,避免復雜架構改動,易于集成。
實驗設計與結果分析
- 實驗設計
- 模型基礎:基于2.7B參數的LLaMA自回歸Transformer。
- 訓練策略:分三階段訓練,分辨率從512×512逐步提升至2048×2048,后兩階段引入Token-Shuffle。
- 數據與優化:使用授權數據集,長文本提示重寫以提升細節表達,采用z-loss穩定高分辨率訓練。
- 評測指標:自動評測采用GenAI-Bench的VQA Score和GenEval,人工評測關注文本對齊、視覺缺陷和美觀度。
- 主要實驗結果
- 自動評測:Token-Shuffle模型在GenAI-Bench“hard”提示上整體得分0.77,較LlamaGen提高0.18,超越DALL-E 3等擴散模型。
- 人工評測:在文本對齊、視覺缺陷和美觀度三項指標上均優于主流AR模型和部分擴散模型,體現了優越的生成質量。
- 效率提升:Token-Shuffle通過減少約75%的視覺token,訓練和推理計算量顯著降低,實現高分辨率圖像生成的同時保持高效。
- 消融實驗
- Token-Shuffle設計選擇:增加MLP層數、添加位置編碼等改動未顯著提升性能,證明默認設計合理。
- 不同融合窗口大小:窗口越大,計算效率越高,但生成質量略有下降,窗口大小為2時取得較好平衡。
- 與其他融合方法對比:Token-Shuffle優于簡單線性融合和改良Re-sampler,顯示其設計的有效性。
結論與展望
- 研究貢獻總結本文提出的Token-Shuffle方法創新性地利用視覺詞匯維度冗余,通過空間token融合與解耦操作,顯著減少視覺token數量,提升自回歸Transformer在圖像生成中的計算效率。該方法首次實現了2048×2048高分辨率文本到圖像生成,且在生成質量和文本對齊度上超越現有主流AR模型及部分擴散模型,推動了AR模型在多模態生成領域的邊界。
- 局限性分析
- Token-Shuffle在極大融合窗口下生成質量有所下降,存在效率與質量的權衡問題。
- 相較于擴散模型,視覺缺陷指標稍遜,提示進一步優化空間。
- 訓練高分辨率模型仍需穩定性改進,如z-loss的引入表明訓練過程仍存在挑戰。
- 未來展望
- 探索更優的token融合策略,減小質量損失,提升更大窗口融合的可行性。
- 結合擴散模型優勢,探索混合模型架構,改善視覺缺陷表現。
- 擴展Token-Shuffle至更多模態和任務,推動統一高效的多模態大語言模型發展。
- 優化訓練穩定性和推理效率,推動工業級高分辨率多模態生成應用。
綜上,Token-Shuffle為高效、高分辨率自回歸圖像生成提供了創新思路和實踐路徑,具備廣泛應用前景和研究價值。
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
2025-04-22|Archimedes,AthenaRC, NTUA, valeo.ai, IIT,NCSR"Demokritos", UoC, IACM-Forth|??5
???http://arxiv.org/abs/2504.16064v1????
????https://huggingface.co/papers/2504.16064????
????https://github.com/zelaki/ReDi???
研究背景與意義
- 研究背景:高質量圖像生成領域,潛變量擴散模型(LDMs)已成為主流,其通過變分自編碼器(VAE)將圖像壓縮為潛在表示,再用擴散模型學習這些潛變量的分布,取得了顯著成果。然而,現有LDMs在融合低層次圖像細節與高層次語義特征方面存在挑戰,尤其是在同時保持精細重建和語義表達的平衡上表現不足。
- 研究意義:本研究針對如何有效結合表示學習與生成建模提出新方案,通過聯合建模低層圖像潛變量與高層語義特征,旨在提升圖像生成質量和訓練效率,推動生成模型在語義感知方面的能力,填補了現有方法在這一領域的空白。
研究方法與創新
- 技術描述:提出ReDi框架,利用擴散模型同時對VAE潛變量和預訓練自監督編碼器(如DINOv2)提取的語義特征進行聯合建模。具體通過將兩種表示在擴散過程中進行噪聲添加與聯合去噪,模型學習兩者的聯合分布,實現圖像與語義特征的同步生成。
- 創新點:
- 聯合擴散過程:區別于先前通過蒸餾對齊特征的間接方式,ReDi直接在擴散模型中聯合建模兩個模態,簡化訓練流程,避免額外蒸餾目標。
- 輕量架構改動:僅對現有Diffusion Transformer架構做最小改動,采用兩種token融合策略(通道合并與序列拼接),兼顧表達能力與計算效率。
- Representation Guidance推理策略:利用訓練得到的語義特征引導推理過程,通過調整噪聲預測引導圖像生成更符合語義特征,顯著提升生成效果。
- 理論基礎對比:相較于REPA等方法通過蒸餾提升語義質量,ReDi的聯合建模更直接且高效,理論上能夠更好地捕獲圖像與語義特征間的復雜依賴關系。
實驗設計與結果分析
- 實驗設計:在ImageNet 256×256數據集上,采用DiT和SiT兩種擴散框架,訓練不同規模模型,比較ReDi與基線(含REPA)在有無條件生成、分類條件生成下的性能差異。對比指標包括FID、sFID、IS、Precision和Recall,采樣步驟固定為250。
- 結果分析:
- ReDi顯著提升生成質量,DiT-XL/2模型400k步訓練即可達到8.7 FID,遠優于7M步基線模型,體現出極大加速收斂能力(最高23倍快于DiT基線)。
- 在與REPA比較中,ReDi在相同或更少訓練迭代下均取得更優FID分數,證明聯合建模策略優于蒸餾對齊。
- Representation Guidance進一步提升性能,特別是在無條件生成中,FID從51.7降至22.6,縮小無條件與條件生成的性能差距。
- 維度壓縮(PCA)對視覺特征有效,8個主成分為性能與模型容量的最佳平衡點。
- 兩種token融合策略均有效,但通道合并方式在保持性能的同時顯著降低計算成本。
- Classifier-Free Guidance更適合僅對VAE潛變量應用,避免對語義特征的過度引導,提高生成穩定性。
結論與展望
- 貢獻總結:本文提出的ReDi方法通過聯合擴散模型同時生成圖像潛變量與高層語義特征,顯著提升了生成圖像的質量和訓練效率。Representation Guidance的引入為推理階段提供了語義引導,進一步增強了生成效果。實驗證明該方法在多個模型架構和條件設置下均表現優異,且訓練更為簡潔高效。
- 局限分析:當前方法依賴于預訓練的語義編碼器(如DINOv2),其性能受限于編碼器的表達能力和維度壓縮策略。融合方式雖已優化,但在更大規模模型或更復雜多模態任務中的擴展性仍需驗證。
- 未來展望:未來工作可探索更豐富的語義特征集成策略,結合多模態數據(如文本、視頻)擴展聯合建模框架;進一步優化推理引導機制,提升生成多樣性與細節表現;以及研究聯合訓練中語義特征與潛變量的動態權重調節,以實現更靈活高效的生成模型。
3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models
2025-04-24|Alibaba DAMO, Alibaba Group, Hupan Lab, ZJU|??4
???http://arxiv.org/abs/2504.17414v1????
????https://huggingface.co/papers/2504.17414????
????https://2y7c3.github.io/3DV-TON/???
研究背景與意義
- 問題定義與現狀視頻試穿技術旨在將視頻中人物所穿服裝替換為目標服裝,實現虛擬試衣。傳統方法多依賴基于流的變形技術,雖然能對服裝幾何進行形變適配,但在復雜姿態、遮擋及多樣服裝紋理場景下,往往產生時間一致性差、細節丟失和偽影等問題。近年來,基于擴散模型的生成方法提升了視覺質量,但依然難以兼顧紋理細節與動態一致性。
- 挑戰現有視頻試穿模型過度關注外觀還原,忽視運動連貫性,導致動態視頻中服裝紋理與人體動作不匹配,產生運動偽影和紋理漂移。缺乏有效的時空一致性引導是主要瓶頸。
- 研究目標本文旨在提出一種新穎的基于擴散模型的視頻試穿框架3DV-TON,通過引入帶紋理的可動畫3D人體網格作為顯式的幀級引導,解決動態服裝紋理一致性問題,實現高保真且時間連貫的視頻試穿效果。
研究方法與創新
- 技術描述3DV-TON框架核心創新在于采用生成的可動畫紋理3D人體網格作為時空一致性的顯式引導。具體流程包括:
- 自適應選擇關鍵幀進行2D圖像試穿,生成初始試穿圖像。
- 基于人體姿態重建與紋理映射,構建與視頻人體動作同步的紋理3D網格。
- 利用該3D網格動畫序列提供穩定的服裝紋理運動參考,指導擴散模型生成視頻幀,確保紋理與動作一致。
- 創新點詳解
- 紋理3D引導的提出:區別于僅用幾何信息的傳統SMPL模型,本文引入帶紋理的3D人體網格,顯式建模服裝紋理隨人體動作的時空變化,有效緩解了傳統模型在動態場景中的紋理漂移和運動偽影。
- 擴散模型與3D引導融合:設計了融合服裝圖像、試穿圖像和紋理3D引導的多通道輸入,通過空間自注意力機制實現紋理感知的特征融合,提升細節還原與時序一致性。
- 動態矩形掩碼策略:創新掩碼方法防止人體動作導致的服裝信息泄露,確保試穿區域的準確性和視覺連貫性,提升模型魯棒性。
- 無需額外訓練的3D引導生成:通過單幀圖像重建和視頻姿態同步,動態生成紋理3D引導,無需針對新數據集額外訓練,增強方法泛化能力。
- 理論基礎與優勢基于SMPL及SMPL-X參數化人體模型,結合單圖像3D人體重建技術,確保人體網格與視頻中人體姿態高度一致。紋理映射與動畫保證了服裝紋理在三維空間的連續性,擴散模型借助這一顯式引導克服了像素級重建目標對時間一致性的限制,實現了視覺質量與運動連貫性的平衡。
- 與現有方法對比傳統基于流的試穿方法受限于變形模塊,難以處理復雜服裝形變和遮擋。純擴散模型雖提升圖像質量,但缺乏有效時空引導,導致動態不連貫。3DV-TON通過紋理3D引導顯著提升了動態紋理一致性和細節表達,獲得更自然真實的試穿視頻。
實驗設計與結果分析
- 實驗設計
- 數據集:訓練采用多種高分辨率圖像和視頻數據集,包括VITON-HD、DressCode及ViViD,測試時引入新建的高分辨率視頻試穿基準HR-VVT,涵蓋多樣服裝類型和復雜動作場景。
- 對比方法:選取當前最先進的ViViD、CatV2TON等公開代碼方法進行定量和定性比較。
- 評估指標:采用SSIM、LPIPS衡量圖像質量,視頻Frechet Inception Distance(VFID)衡量視頻生成的真實性和時序一致性,同時進行用戶主觀偏好測試。
- 消融實驗:驗證紋理3D引導、SMPL幾何引導和掩碼策略對性能的貢獻。
- 結果分析
- 定性表現:3DV-TON在復雜動作和多視角場景下,能準確還原服裝紋理細節,保持紋理運動連貫,避免了其他方法常見的模糊、偽影和紋理漂移。
- 定量指標:在所有關鍵指標上,3DV-TON均優于對比方法,特別在VFID指標上顯著領先,說明生成視頻的時序一致性和視覺真實性得到大幅提升。
- 消融驗證:紋理3D引導對提升紋理一致性和細節恢復貢獻最大,SMPL幾何引導輔助人體結構準確,掩碼策略有效防止服裝信息泄露,保障了試穿區域的視覺真實性。
- 用戶研究:主觀評價顯示用戶對3DV-TON生成視頻的視覺質量和動態連貫性更為滿意,偏好率明顯高于現有方法。
- 運行效率優化后的SMPL擬合過程約需30秒,32幀視頻生成耗時約35秒,具備實用性。
結論與展望
- 研究貢獻總結本文提出了基于紋理3D人體網格引導的擴散模型視頻試穿框架3DV-TON,成功解決了傳統視頻試穿中服裝紋理動態不一致的問題。通過融合幾何與紋理顯式引導,實現了高保真、時序連貫的試穿視頻生成,并構建了高分辨率多樣化視頻試穿基準HR-VVT,推動了該領域的評測標準建設。
- 局限性分析當前方法在極端復雜遮擋和超大范圍服裝變形場景下,3D重建與動畫仍存在一定誤差,可能影響最終試穿效果的自然度。此外,模型推理時間仍需進一步優化以滿足實時應用需求。
- 未來展望
未來可探索結合物理仿真與動態紋理建模,進一步提升服裝運動的真實感和細節表現;同時,優化3D重建與動畫算法,縮短推理時間,實現更高效的視頻試穿系統;此外,擴展至多人物、復雜交互場景的試穿應用,將拓展該技術的實用邊界。
本文轉載自???AI研究前瞻???,作者:胡耀淇
