成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<code id="wlcly"></code>

<noscript id="wlcly"><object id="wlcly"><tr id="wlcly"></tr></object></noscript>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架

發布于 2025-4-27 23:39

瀏覽

0收藏

Step1X-Edit: A Practical Framework for General Image Editing

2025-04-24｜StepFun, |??55

???http://arxiv.org/abs/2504.17761v1????
????https://huggingface.co/papers/2504.17761????
????https://github.com/stepfun-ai/Step1X-Edit???

研究背景與意義

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

領域現狀與挑戰近年來，圖像編輯技術迅速發展，尤其是在多模態大模型（如GPT-4o、Gemini2 Flash）推動下，實現了基于自然語言的高質量圖像編輯。這些閉源模型在理解復雜編輯指令和保持圖像一致性方面表現優異，但其封閉性限制了學術界和開源社區的研究與應用推廣。相較之下，現有開源圖像編輯算法在泛化能力、編輯準確度和生成圖像質量上仍存在顯著差距。
研究目標本論文旨在縮小開源與閉源圖像編輯模型間的性能差距，提出一個開源的通用圖像編輯框架Step1X-Edit，兼具閉源模型的高性能和開源模型的透明性。為此，作者構建了大規模、高質量的圖像編輯數據集，并設計了一個融合多模態大語言模型（MLLM）與擴散模型的統一編輯架構，同時推出了真實用戶驅動的評測基準GEdit-Bench，推動圖像編輯技術向實用化邁進。

研究方法與創新

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

數據生成與標注創新論文提出了覆蓋11大類編輯任務的規模化數據生成管線，利用多模態大語言模型和自動化工具結合人工審核，構建了超過1百萬高質量圖像-指令-目標三元組數據集，顯著超越現有開源數據集規模與多樣性。數據標注采用多輪遞歸增強策略，結合中英雙語注釋，提升語義一致性和跨語言適用性。
模型架構設計Step1X-Edit將多模態大語言模型（如Qwen-VL）與基于Transformer的擴散模型（DiT）深度集成。編輯指令與參考圖像首先由MLLM解析，生成語義豐富的編輯嵌入；接著通過輕量級連接模塊精煉特征，替代傳統文本編碼器的嵌入，作為擴散模型的條件輸入。訓練時，模型采用目標圖像與參考圖像的融合視覺特征，優化編輯準確度和圖像質量，實現語義理解與視覺生成的緊密耦合。
創新點與優勢

統一框架：打破傳統模塊化設計，緊密結合語言理解與圖像生成，支持多輪交互和細粒度編輯。
語義引導的視覺條件：利用MLLM強大的語義推理能力，提升編輯指令的準確執行，尤其對復雜、組合性編輯表現優異。
大規模高質量數據支撐：數據多樣性和規模保障模型泛化能力，推動實際應用。
跨語言支持：支持中英文編輯指令，拓寬應用場景。
訓練策略：采用預訓練權重初始化，穩定且高效地提升模型性能。

實驗設計與結果分析

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

實驗設置

構建了真實用戶編輯指令驅動的GEdit-Bench評測集，包含606個多樣化編輯任務，涵蓋11大類編輯場景，確保評測的真實性和全面性。
對比對象涵蓋多個開源模型（Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen）及閉源頂尖模型（GPT-4o、Gemini2 Flash、Doubao）。
采用自動化多指標評價（語義一致性SQ、感知質量PQ、整體評分O）和主觀用戶偏好測試，保證評測的客觀與主觀雙重維度。

結果表現

Step1X-Edit在GEdit-Bench上全面超越所有開源基線，提升幅度顯著，接近甚至部分任務超越閉源模型。特別在風格轉換、顏色調整等細節編輯上表現優異。
在中文編輯指令評測中，Step1X-Edit同樣表現穩定，超過Gemini2和Doubao，顯示出強大的跨語言適應能力。
用戶研究表明，Step1X-Edit編輯結果在視覺質量和符合用戶意圖方面獲得較高認可，主觀評分與閉源模型相當，體現了良好的用戶體驗。

多場景驗證

論文展示了豐富的編輯示例，涵蓋從物體添加、替換、移除，到材質修改、風格遷移、文本編輯等多種任務，驗證模型的通用性和實用性。
對比圖示清晰展示了Step1X-Edit在細節保留、語義理解和圖像美學上的優勢。

結論與展望

總結貢獻

Step1X-Edit作為首個開源且性能接近閉源頂尖水平的通用圖像編輯模型，填補了開源社區與工業閉源模型之間的空白。
數據生成管線和GEdit-Bench基準的開放，為后續研究提供了寶貴資源和評價標準。
模型架構創新實現了多模態語義理解與擴散生成的深度融合，推動圖像編輯技術向更智能、更交互的方向發展。

局限性分析

盡管性能優異，某些復雜多輪交互和極端細節編輯仍有提升空間。
模型訓練和推理成本較高，對硬件資源要求較大，限制了部分應用場景。
安全策略導致部分編輯指令被拒絕響應，影響模型的開放性和靈活性。

未來展望

進一步優化模型架構，提升多輪交互和細節編輯能力，實現更自然的用戶反饋循環。
探索輕量化和加速推理技術，降低模型部署門檻，擴大實際應用范圍。
拓展多語言、多文化背景下的編輯能力，增強模型的全球適用性。
深化隱私保護和安全策略，兼顧開放性與合規性，促進模型的廣泛應用。

總體而言，Step1X-Edit開創了開源圖像編輯模型的新紀元，其高質量數據、創新模型設計和嚴謹評測體系，為圖像編輯領域的研究與應用提供了堅實基礎和廣闊前景。

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

2025-04-24｜NEU, Meta GenAI, Meta FAIR, NUS, CUHK, U Washington|??8

???http://arxiv.org/abs/2504.17789v1????
????https://huggingface.co/papers/2504.17789???

研究背景與意義

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

研究背景自然語言處理領域中，自回歸（Autoregressive, AR）模型通過預測序列中下一個token取得了巨大成功。近年來，AR模型逐漸被應用于圖像生成，尤其是在多模態大語言模型（Multimodal Large Language Models, MLLMs）中。然而，AR模型在圖像生成中面臨的主要瓶頸是需要大量的視覺token，導致訓練和推理效率低下，且限制了生成圖像的分辨率。
研究意義現有AR模型難以高效生成高分辨率圖像（如2048×2048），而擴展視覺token數量則帶來計算成本的指數級增長。相比之下，擴散模型雖然在高分辨率生成上表現優異，但AR模型具有統一的多模態生成潛力。解決AR模型中視覺token數量過多的問題，有助于提升AR模型在高分辨率圖像生成中的實用性和性能，推動多模態生成技術的發展。
挑戰與目標

挑戰：視覺token數量龐大，Transformer計算復雜度呈二次方增長，限制了分辨率提升。
目標：設計簡潔有效的方法減少視覺token數量，提升計算效率，同時保持甚至提升生成圖像的質量和分辨率，實現AR模型高效高分辨率圖像生成。

研究方法與創新

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

核心方法——Token-Shuffle本文提出了Token-Shuffle，一種利用視覺詞匯表維度冗余的輕量級操作。該方法通過將空間鄰近的視覺token在通道維度上融合（token-shuffle），顯著減少輸入Transformer的token數量；隨后通過token-unshuffle操作恢復空間結構，保證輸出圖像的空間一致性。
維度冗余的發現與利用視覺編碼器生成的低維視覺token被直接映射到高維語言詞匯空間，導致維度冗余。實驗表明，視覺詞匯的維度可以壓縮8倍而不顯著影響生成質量。Token-Shuffle正是借助這一冗余，將多個空間token融合為一個復合token，減少計算量。
技術細節

融合與解耦機制：融合操作通過MLP壓縮維度并合并s×s鄰域token，解耦操作則逆向恢復。
訓練與推理一致性：Token-Shuffle不改變原有的自回歸預測范式，而是將下一token預測擴展為下一組復合token預測，提升效率。
無須額外預訓練文本編碼器，直接聯合訓練文本和視覺token，實現統一的多模態生成框架。

創新優勢

顯著減少視覺token數量，降低Transformer計算復雜度，提升訓練和推理速度。
支持最高2048×2048分辨率的文本到圖像生成，打破AR模型生成分辨率瓶頸。
保持甚至提升生成圖像質量和文本對齊度，超越現有AR模型及部分擴散模型。

與現有方法對比傳統方法或通過壓縮視覺token，或犧牲分辨率與質量，Token-Shuffle則通過融合鄰域token利用維度冗余，兼顧效率與質量，避免復雜架構改動，易于集成。

實驗設計與結果分析

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

實驗設計

模型基礎：基于2.7B參數的LLaMA自回歸Transformer。
訓練策略：分三階段訓練，分辨率從512×512逐步提升至2048×2048，后兩階段引入Token-Shuffle。
數據與優化：使用授權數據集，長文本提示重寫以提升細節表達，采用z-loss穩定高分辨率訓練。
評測指標：自動評測采用GenAI-Bench的VQA Score和GenEval，人工評測關注文本對齊、視覺缺陷和美觀度。

主要實驗結果

自動評測：Token-Shuffle模型在GenAI-Bench“hard”提示上整體得分0.77，較LlamaGen提高0.18，超越DALL-E 3等擴散模型。
人工評測：在文本對齊、視覺缺陷和美觀度三項指標上均優于主流AR模型和部分擴散模型，體現了優越的生成質量。
效率提升：Token-Shuffle通過減少約75%的視覺token，訓練和推理計算量顯著降低，實現高分辨率圖像生成的同時保持高效。

消融實驗

Token-Shuffle設計選擇：增加MLP層數、添加位置編碼等改動未顯著提升性能，證明默認設計合理。
不同融合窗口大小：窗口越大，計算效率越高，但生成質量略有下降，窗口大小為2時取得較好平衡。
與其他融合方法對比：Token-Shuffle優于簡單線性融合和改良Re-sampler，顯示其設計的有效性。

結論與展望

研究貢獻總結本文提出的Token-Shuffle方法創新性地利用視覺詞匯維度冗余，通過空間token融合與解耦操作，顯著減少視覺token數量，提升自回歸Transformer在圖像生成中的計算效率。該方法首次實現了2048×2048高分辨率文本到圖像生成，且在生成質量和文本對齊度上超越現有主流AR模型及部分擴散模型，推動了AR模型在多模態生成領域的邊界。
局限性分析

Token-Shuffle在極大融合窗口下生成質量有所下降，存在效率與質量的權衡問題。
相較于擴散模型，視覺缺陷指標稍遜，提示進一步優化空間。
訓練高分辨率模型仍需穩定性改進，如z-loss的引入表明訓練過程仍存在挑戰。

未來展望

探索更優的token融合策略，減小質量損失，提升更大窗口融合的可行性。
結合擴散模型優勢，探索混合模型架構，改善視覺缺陷表現。
擴展Token-Shuffle至更多模態和任務，推動統一高效的多模態大語言模型發展。
優化訓練穩定性和推理效率，推動工業級高分辨率多模態生成應用。

綜上，Token-Shuffle為高效、高分辨率自回歸圖像生成提供了創新思路和實踐路徑，具備廣泛應用前景和研究價值。

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

2025-04-22｜Archimedes,AthenaRC, NTUA, valeo.ai, IIT,NCSR"Demokritos", UoC, IACM-Forth|??5

???http://arxiv.org/abs/2504.16064v1????
????https://huggingface.co/papers/2504.16064????
????https://github.com/zelaki/ReDi???

研究背景與意義

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

研究背景：高質量圖像生成領域，潛變量擴散模型（LDMs）已成為主流，其通過變分自編碼器（VAE）將圖像壓縮為潛在表示，再用擴散模型學習這些潛變量的分布，取得了顯著成果。然而，現有LDMs在融合低層次圖像細節與高層次語義特征方面存在挑戰，尤其是在同時保持精細重建和語義表達的平衡上表現不足。
研究意義：本研究針對如何有效結合表示學習與生成建模提出新方案，通過聯合建模低層圖像潛變量與高層語義特征，旨在提升圖像生成質量和訓練效率，推動生成模型在語義感知方面的能力，填補了現有方法在這一領域的空白。

研究方法與創新

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

技術描述：提出ReDi框架，利用擴散模型同時對VAE潛變量和預訓練自監督編碼器（如DINOv2）提取的語義特征進行聯合建模。具體通過將兩種表示在擴散過程中進行噪聲添加與聯合去噪，模型學習兩者的聯合分布，實現圖像與語義特征的同步生成。
創新點：

聯合擴散過程：區別于先前通過蒸餾對齊特征的間接方式，ReDi直接在擴散模型中聯合建模兩個模態，簡化訓練流程，避免額外蒸餾目標。
輕量架構改動：僅對現有Diffusion Transformer架構做最小改動，采用兩種token融合策略（通道合并與序列拼接），兼顧表達能力與計算效率。
Representation Guidance推理策略：利用訓練得到的語義特征引導推理過程，通過調整噪聲預測引導圖像生成更符合語義特征，顯著提升生成效果。

理論基礎對比：相較于REPA等方法通過蒸餾提升語義質量，ReDi的聯合建模更直接且高效，理論上能夠更好地捕獲圖像與語義特征間的復雜依賴關系。

實驗設計與結果分析

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

實驗設計：在ImageNet 256×256數據集上，采用DiT和SiT兩種擴散框架，訓練不同規模模型，比較ReDi與基線（含REPA）在有無條件生成、分類條件生成下的性能差異。對比指標包括FID、sFID、IS、Precision和Recall，采樣步驟固定為250。
結果分析：

ReDi顯著提升生成質量，DiT-XL/2模型400k步訓練即可達到8.7 FID，遠優于7M步基線模型，體現出極大加速收斂能力（最高23倍快于DiT基線）。
在與REPA比較中，ReDi在相同或更少訓練迭代下均取得更優FID分數，證明聯合建模策略優于蒸餾對齊。
Representation Guidance進一步提升性能，特別是在無條件生成中，FID從51.7降至22.6，縮小無條件與條件生成的性能差距。
維度壓縮（PCA）對視覺特征有效，8個主成分為性能與模型容量的最佳平衡點。
兩種token融合策略均有效，但通道合并方式在保持性能的同時顯著降低計算成本。
Classifier-Free Guidance更適合僅對VAE潛變量應用，避免對語義特征的過度引導，提高生成穩定性。

結論與展望

貢獻總結：本文提出的ReDi方法通過聯合擴散模型同時生成圖像潛變量與高層語義特征，顯著提升了生成圖像的質量和訓練效率。Representation Guidance的引入為推理階段提供了語義引導，進一步增強了生成效果。實驗證明該方法在多個模型架構和條件設置下均表現優異，且訓練更為簡潔高效。
局限分析：當前方法依賴于預訓練的語義編碼器（如DINOv2），其性能受限于編碼器的表達能力和維度壓縮策略。融合方式雖已優化，但在更大規模模型或更復雜多模態任務中的擴展性仍需驗證。
未來展望：未來工作可探索更豐富的語義特征集成策略，結合多模態數據（如文本、視頻）擴展聯合建模框架；進一步優化推理引導機制，提升生成多樣性與細節表現；以及研究聯合訓練中語義特征與潛變量的動態權重調節，以實現更靈活高效的生成模型。

3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models

2025-04-24｜Alibaba DAMO, Alibaba Group, Hupan Lab, ZJU|??4

???http://arxiv.org/abs/2504.17414v1????
????https://huggingface.co/papers/2504.17414????
????https://2y7c3.github.io/3DV-TON/???

研究背景與意義

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

問題定義與現狀視頻試穿技術旨在將視頻中人物所穿服裝替換為目標服裝，實現虛擬試衣。傳統方法多依賴基于流的變形技術，雖然能對服裝幾何進行形變適配，但在復雜姿態、遮擋及多樣服裝紋理場景下，往往產生時間一致性差、細節丟失和偽影等問題。近年來，基于擴散模型的生成方法提升了視覺質量，但依然難以兼顧紋理細節與動態一致性。
挑戰現有視頻試穿模型過度關注外觀還原，忽視運動連貫性，導致動態視頻中服裝紋理與人體動作不匹配，產生運動偽影和紋理漂移。缺乏有效的時空一致性引導是主要瓶頸。
研究目標本文旨在提出一種新穎的基于擴散模型的視頻試穿框架3DV-TON，通過引入帶紋理的可動畫3D人體網格作為顯式的幀級引導，解決動態服裝紋理一致性問題，實現高保真且時間連貫的視頻試穿效果。

研究方法與創新

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

技術描述3DV-TON框架核心創新在于采用生成的可動畫紋理3D人體網格作為時空一致性的顯式引導。具體流程包括：

自適應選擇關鍵幀進行2D圖像試穿，生成初始試穿圖像。
基于人體姿態重建與紋理映射，構建與視頻人體動作同步的紋理3D網格。
利用該3D網格動畫序列提供穩定的服裝紋理運動參考，指導擴散模型生成視頻幀，確保紋理與動作一致。

創新點詳解

紋理3D引導的提出：區別于僅用幾何信息的傳統SMPL模型，本文引入帶紋理的3D人體網格，顯式建模服裝紋理隨人體動作的時空變化，有效緩解了傳統模型在動態場景中的紋理漂移和運動偽影。
擴散模型與3D引導融合：設計了融合服裝圖像、試穿圖像和紋理3D引導的多通道輸入，通過空間自注意力機制實現紋理感知的特征融合，提升細節還原與時序一致性。
動態矩形掩碼策略：創新掩碼方法防止人體動作導致的服裝信息泄露，確保試穿區域的準確性和視覺連貫性，提升模型魯棒性。
無需額外訓練的3D引導生成：通過單幀圖像重建和視頻姿態同步，動態生成紋理3D引導，無需針對新數據集額外訓練，增強方法泛化能力。

理論基礎與優勢基于SMPL及SMPL-X參數化人體模型，結合單圖像3D人體重建技術，確保人體網格與視頻中人體姿態高度一致。紋理映射與動畫保證了服裝紋理在三維空間的連續性，擴散模型借助這一顯式引導克服了像素級重建目標對時間一致性的限制，實現了視覺質量與運動連貫性的平衡。
與現有方法對比傳統基于流的試穿方法受限于變形模塊，難以處理復雜服裝形變和遮擋。純擴散模型雖提升圖像質量，但缺乏有效時空引導，導致動態不連貫。3DV-TON通過紋理3D引導顯著提升了動態紋理一致性和細節表達，獲得更自然真實的試穿視頻。

實驗設計與結果分析

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

統一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯合的圖像生成；視頻試穿框架-AI.x社區

實驗設計

數據集：訓練采用多種高分辨率圖像和視頻數據集，包括VITON-HD、DressCode及ViViD，測試時引入新建的高分辨率視頻試穿基準HR-VVT，涵蓋多樣服裝類型和復雜動作場景。
對比方法：選取當前最先進的ViViD、CatV2TON等公開代碼方法進行定量和定性比較。
評估指標：采用SSIM、LPIPS衡量圖像質量，視頻Frechet Inception Distance（VFID）衡量視頻生成的真實性和時序一致性，同時進行用戶主觀偏好測試。
消融實驗：驗證紋理3D引導、SMPL幾何引導和掩碼策略對性能的貢獻。

結果分析

定性表現：3DV-TON在復雜動作和多視角場景下，能準確還原服裝紋理細節，保持紋理運動連貫，避免了其他方法常見的模糊、偽影和紋理漂移。
定量指標：在所有關鍵指標上，3DV-TON均優于對比方法，特別在VFID指標上顯著領先，說明生成視頻的時序一致性和視覺真實性得到大幅提升。
消融驗證：紋理3D引導對提升紋理一致性和細節恢復貢獻最大，SMPL幾何引導輔助人體結構準確，掩碼策略有效防止服裝信息泄露，保障了試穿區域的視覺真實性。
用戶研究：主觀評價顯示用戶對3DV-TON生成視頻的視覺質量和動態連貫性更為滿意，偏好率明顯高于現有方法。

運行效率優化后的SMPL擬合過程約需30秒，32幀視頻生成耗時約35秒，具備實用性。

結論與展望

研究貢獻總結本文提出了基于紋理3D人體網格引導的擴散模型視頻試穿框架3DV-TON，成功解決了傳統視頻試穿中服裝紋理動態不一致的問題。通過融合幾何與紋理顯式引導，實現了高保真、時序連貫的試穿視頻生成，并構建了高分辨率多樣化視頻試穿基準HR-VVT，推動了該領域的評測標準建設。
局限性分析當前方法在極端復雜遮擋和超大范圍服裝變形場景下，3D重建與動畫仍存在一定誤差，可能影響最終試穿效果的自然度。此外，模型推理時間仍需進一步優化以滿足實時應用需求。
未來展望
未來可探索結合物理仿真與動態紋理建模，進一步提升服裝運動的真實感和細節表現；同時，優化3D重建與動畫算法，縮短推理時間，實現更高效的視頻試穿系統；此外，擴展至多人物、復雜交互場景的試穿應用，將拓展該技術的實用邊界。

本文轉載自???AI研究前瞻???，作者：胡耀淇

標簽

贊

收藏

回復

舉報

回復

相關推薦

無需訓練，這個新方法實現了生成圖像尺寸、分辨率自由

輕薄滴假象 ? 2678瀏覽 ? 0回復
超10秒高分辨率，北大Open Sora視頻生成更強了，還支持華為芯片

輕薄滴假象 ? 2772瀏覽 ? 0回復
CVPR 2024高分論文：全新生成式編輯框架GenN2N，統一NeRF轉換任務

輕薄滴假象 ? 3019瀏覽 ? 0回復
高分辨率圖像生成擴散外推方法CutDiffusion發布！

angel ? 4438瀏覽 ? 0回復
DiT架構大一統：一個框架集成圖像、視頻、音頻和3D生成，可編輯、能試玩

輕薄滴假象 ? 3029瀏覽 ? 0回復
在圖像生成領域，自回歸可以打敗擴散模型嗎？

angel ? 3872瀏覽 ? 0回復
自回歸扳回一城！阿里等提出MARS：超越PixArt-α、SD-XL等的文本到圖像生成框架

angel ? 3399瀏覽 ? 0回復
上海交大等聯合發布MegaFusion：無須微調的高效高分辨率圖像生成方法

angel ? 2866瀏覽 ? 0回復
MDM：多任務高分辨率生成又快又好！

angel ? 2322瀏覽 ? 0回復
拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質量更優 | 北大&港科大

angel ? 2608瀏覽 ? 0回復
首次實現8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！

angel ? 2459瀏覽 ? 0回復
釋放你的想象！支持25種復雜編輯類型！浙大等提出AnyEdit：統一高質量圖像編輯框架

angel ? 3550瀏覽 ? 0回復
NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一

angel ? 4206瀏覽 ? 0回復
視頻編輯最新SOTA！港中文&Adobe等發布統一視頻生成傳播框架——GenProp

angel ? 2190瀏覽 ? 0回復
從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計算瓶頸(港大&港中文&字節)

angel ? 2120瀏覽 ? 0回復
高分辨率3D人生成超簡單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成

angel ? 2713瀏覽 ? 0回復
何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成

Crystalcxt ? 1855瀏覽 ? 0回復
通向高分辨率VLM (11): VILA-HD

kede96 ? 1119瀏覽 ? 0回復
在線教程丨9 秒處理一張圖！In-Context Edit 高效圖像編輯框架上線

HyperAI超神經 ? 1103瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

圖表代碼生成，ChartIR；視頻與文本統一多模態模型 5天前發布
跨領域強化學習樣本數據集；符號表達的分層推理基準 5天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：比肩可靈視頻生模型；改善視覺Tokenizer性能；高壓縮潛在表示；像素空間擴散生成

下一篇：多模態LLM統一嵌入學習；基于心理意象模擬的感知視角推理；動態視覺token壓縮框架

社區精華內容

目錄

主站蜘蛛池模板：国产精品久久久久久久久久久久久 | 亚洲欧美一区二区三区1000 | 超级乱淫av片免费播放 | 亚洲欧洲日韩精品中文字幕 | caoporn国产精品免费公开 | 在线中文字幕视频 | 国产欧美一区二区三区免费 | 欧洲色综合 | 手机在线观看 | 日韩在线一区二区三区 | 欧美久久久久久 | 国产午夜一级 | 一区2区 | 亚洲一区二区日韩 | 亚洲国产精品久久久久婷婷老年 | 国产精品久久久久久久免费观看 | 91免费小视频 | 91亚洲免费| 9191在线观看 | 亚洲精品久久久一区二区三区 | 中文字幕加勒比 | 日韩一区二区三区在线视频 | .国产精品成人自产拍在线观看6 | 国产毛片久久久 | 成人在线观看免费 | 国产精品成人在线播放 | 精品视频久久久久久 | 中文字幕免费视频 | 午夜ww| 午夜午夜精品一区二区三区文 | 免费激情| 五月天天色 | 岛国av免费看 | 黄色一级片在线播放 | 国产精品96久久久久久 | 狠狠色狠狠色综合系列 | 日韩电影一区二区三区 | avav在线看| 羞羞网站在线免费观看 | 免费在线视频一区二区 | 久久精品国产免费看久久精品 |

<u id="loimv"></u>

<kbd id="loimv"></kbd>

<mark id="loimv"><tbody id="loimv"></tbody></mark>

<u id="loimv"><bdo id="loimv"></bdo></u>

<cite id="loimv"></cite>