論文鏈接:https:arxiv.orgpdf2505.14357項目鏈接:https:knightnemo.github.iovid2world生成效果速覽亮點直擊首個系統性探索如何將全序列、非因果、被動的視頻擴散模型遷移為自回歸、交互式、動作條件的世界模型的問題。提出Vid2World,一個通用且高效的解決方案,包含了將視頻擴散模型因果化和動作條件化的多項新穎技術。Vid2World在多個領域中都達到了SOTA,為這一關鍵問題建立了新的基準,并為未來研究提供了有力支持。將視...
2025-05-23 10:17:32 1073瀏覽 1點贊 0回復 1收藏
論文鏈接:https:arxiv.orgpdf2505.14683項目鏈接:https:bagelai.org模型地址:https:huggingface.coByteDanceSeedBAGEL7BMoT亮點直擊可擴展生成認知模型(ScalableGenerativeCognitiveModel,BAGEL),一個開源的多模態基礎模型,具有7B活躍參數(總計14B),在大規模交錯多模態數據上訓練。BAGEL在標準多模態理解排行榜上超越了當前頂級的開源視覺語言模型(VLMs),并且在文本到圖像質量方面,與領先的公開生成器如SD3和FLU...
2025-05-22 09:33:05 6546瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2505.07747Git鏈接:https:github.comstepfunaiStep1X3D亮點直擊提出了一套全面的數據治理流程,該流程在提升生成保真度的同時,深入解析了3D資產特性。提出了Step1X3D,一個原生3D生成框架,實現了幾何與紋理合成的解耦。該框架能夠生成拓撲結構合理的網格和幾何對齊的紋理,并通過圖像與語義輸入增強可控性。完整框架——包括基礎模型、訓練代碼和基于LoRA的適配模塊——將被開源以促進3D研究社...
2025-05-21 09:52:11 2009瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2505.10562亮點直擊提出了一種新的視覺分詞器訓練范式,以釋放視覺分詞器在下游自回歸任務中的潛力。該視覺分詞器能夠感知并針對下游訓練進行優化。引入了一種簡單而有效的端到端視覺分詞器調優方法ETT。ETT利用分詞器的碼本嵌入而不僅限于離散索引,并應用詞級描述損失來優化視覺分詞器的表示。ETT顯著提升了基于下一詞預測范式的下游任務結果,包括多模態理解和生成任務,同時保持了分詞器的重建...
2025-05-19 08:37:19 791瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2505.09568代碼鏈接:https:github.comJiuhaiChenBLIP3o模型鏈接:https:huggingface.coBLIP3oBLIP3oModel預訓練數據:https:huggingface.codatasetsBLIP3oBLIP3oPretrain優化數據:https:huggingface.codatasetsBLIP3oBLIP3o60k亮點直擊創新架構設計:首次采用擴散Transformer生成CLIP語義特征,突破傳統VAE局限,實現高效訓練與高質量生成。分階段訓練策略:通過“理解優先,生成擴展”的序列化訓...
2025-05-16 09:12:17 1257瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2505.07344亮點直擊GPDiT,一個強大的自回歸視頻生成框架,利用幀級因果注意力來提升長時間跨度的時序一致性。為了進一步提高效率,提出了一種輕量級的因果注意力變體,顯著降低了訓練和推理時的計算成本。通過重新解釋擴散模型的前向過程,引入了一種基于旋轉的條件策略,提供了一種無參數的時間信息注入方法。這種輕量級設計消除了與adaLNZero相關的參數,同時實現了與最先進的基于DiT的方法相當...
2025-05-15 08:34:07 1109瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2505.05474Git鏈接:https:github.comhzxieAwesome3DSceneGeneration亮點直擊綜述了3D場景生成SOTA方法;組織為四種范式:程序化生成、基于神經網絡的3D生成、基于圖像的生成和基于視頻的生成;分析了它們的技術基礎、權衡和代表性結果,并回顧了常用數據集、評估協議和下游應用;討論了生成能力、3D表示、數據和標注以及評估中的關鍵挑戰,并概述了包括更高真實度、物理感知和交互生成以及統一感知生...
2025-05-14 09:31:30 1363瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2505.02567開源鏈接:https:github.comAIDCAIAwesomeUnifiedMultimodalModels亮點直擊闡述多模態理解與文生圖模型的基礎概念與最新進展;繼而梳理現有統一模型,將其歸納為三大架構范式:基于擴散的架構、基于自回歸的架構,以及融合自回歸與擴散機制的混合架構;整理了適配統一模型的數據集與評測基準,為后續研究提供資源支持;探討了這一新興領域面臨的核心挑戰,包括分詞策略、跨模態注意力機制與...
2025-05-12 08:36:05 2161瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2505.04512項目鏈接:https:hunyuancustom.github.io亮點直擊多模態條件融合:首次實現圖像、音頻、視頻、文本四模態聯合驅動的定制視頻生成,突破傳統單模態(如圖像)限制。身份一致性強化:通過時序拼接和跨幀特征增強,顯著提升生成視頻中主題的ID一致性,優于開源和商業模型。模塊化條件注入:提出AudioNet和視頻Patchify對齊等獨立模塊,實現多模態條件的高效解耦與融合,兼顧靈活性與性能。效...
2025-05-09 08:41:09 1652瀏覽 0點贊 0回復 0收藏
文章:??https:arxiv.orgpdf2505.02831??代碼:https:github.comvvvvvjdySRA亮點直擊分析發現:文章深入分析diffusiontransformer的潛在表征趨勢,發現當只執行生成訓練時,其會擁有一個大致從粗糙到細致,從差到好的表征(判別)過程。方法提出:文章引入SRA方法,通過將早期層高噪聲條件下的潛在表征與后期層低噪聲條件下的潛在表征對齊,實現自我表征引導,提升diffusiontransforme的訓練速度和生成表現。實驗驗證:文章...
2025-05-08 09:26:26 1125瀏覽 0點贊 0回復 0收藏
文章鏈接:??https:arxiv.orgpdf2505.01172??Git鏈接:https:github.comJosephTiTanFreePCA亮點直擊首次揭示了PCA能夠有效將視頻特征解耦為一致的外觀和運動強度特征,從而解決長視頻生成中的不一致性和低質量問題。提出了一種技術,從整個視頻序列的全局特征中提取主成分空間中的一致性特征,并逐步將其整合到通過滑動窗口獲得的局部特征中,從而在保證視頻質量的同時確保一致性。大量實驗表明,本文的方法優于現有方法,...
2025-05-06 09:35:28 1079瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2504.21650主頁鏈接:https:zhouhyocean.github.ioholotime代碼鏈接:https:github.comPKUYuanGroupHoloTime亮點直擊全景動畫生成器(PanoramicAnimator):提出兩階段運動引導生成策略,無縫轉換全景圖像為動態全景視頻,在保留原始圖像空間特征的同時支持下游4D重建任務。全景時空重建技術(PanoramicSpaceTimeReconstruction):通過前沿技術實現全景視頻深度估計的時空對齊,利用4DGaussianSplatting...
2025-05-06 09:27:27 1197瀏覽 0點贊 0回復 0收藏
文章地址:https:arxiv.orgabs2504.19724項目鏈接:https:reptext.github.ioGit鏈接:https:github.comShakkerLabsRepText亮點直擊RepText,一個用于可控多語言視覺文本渲染的有效框架。創新性地引入了字形隱空間變量復制技術,以提高排版準確性并實現顏色控制。此外,采用區域掩碼來保證良好的視覺保真度,避免背景干擾。定性實驗表明,本方法優于現有開源方案,并與原生多語言閉源模型取得了可比的結果。總結速覽解決的問題現...
2025-04-30 09:13:03 2525瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2504.02828項目鏈接:https:peterljq.github.ioprojectcolanGit鏈接:https:github.competerljqConceptLancet亮點直擊提出CoLan框架一個零樣本即插即用的框架,用于在基于擴散的圖像編輯中解釋和操作稀疏概念表示。該框架可以精確控制概念移植的幅度,實現高質量的圖像編輯。構建CoLan150K概念詞典收集了包含多樣化視覺概念的CoLan150K數據集,并計算對應的概念向量詞典(文本嵌入或評分空間),為...
2025-04-28 09:49:49 1459瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2504.16915項目鏈接:https:mce.github.ioprojectDreamO亮點直擊提出了DreamO,一個統一的圖像定制框架。它通過在預訓練的DiT模型上訓練少量額外參數,實現了各種復雜和多條件的定制任務。基于擴散模型內部的表示對應關系,本文設計了一種特征路由約束,以增強一致性保真度,并在多條件場景中實現有效的解耦。引入了一種漸進式訓練策略,以促進多任務和復雜任務設置的收斂。本文還設計了一種占位符...
2025-04-25 09:16:15 2143瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2504.15009開源地址:https:songwensong.github.ioinsertanything亮點直擊發布了AnyInsertion數據集,這是一個包含120K提示圖像對的大規模數據集,涵蓋了廣泛的插入任務,例如人物、物體和服裝插入。提出了InsertAnything框架,這是一個統一框架,通過單一模型無縫處理多種插入任務(人物、物體和服裝)。首個利用DiT(DiffusionTransformer)進行圖像插入的研究,充分發揮了其在不同控制模式下的...
2025-04-24 09:51:06 1978瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2504.13074代碼&模型鏈接:https:github.comSkyworkAISkyReelsV2SKyReelsV2生產驚人的現實和電影的高分辨率視頻幾乎無限長度亮點直擊全面的視頻標注器,既能理解鏡頭語言,又能捕捉視頻的通用描述,從而顯著提升提示詞遵循能力。針對運動優化的偏好學習,通過半自動數據收集流程增強運動動態表現。高效的擴散強制適配,支持超長視頻生成和故事敘述能力,為時序連貫性和敘事深度提供穩健框架。開源S...
2025-04-23 12:13:59 1432瀏覽 0點贊 0回復 0收藏
論文鏈接:https:arxiv.orgpdf2504.01724項目鏈接:https:grisoon.github.ioDreamActorM1亮點直擊提出了一個整體的基于DiT的框架和一種漸進的訓練策略,用于支持靈活多尺度合成的人像動畫。設計了混合控制信號,結合了隱式面部表征、顯式3D頭部球體和身體骨架,以實現富有表現力的身體和面部動作合成,同時支持多樣化的角色風格。開發了互補的外觀引導,以緩解視頻片段之間未見區域的信息差距,從而實現長時間段內的一致視頻生...
2025-04-22 09:43:17 1453瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2504.10483項目鏈接:https:end2enddiffusion.github.ioGit鏈接:https:github.comEnd2EndDiffusionREPAE模型鏈接:https:huggingface.coREPAE亮點直擊端到端聯合優化的突破首次實現VAE與擴散模型的端到端聯合訓練,通過REPALoss替代傳統擴散損失,解決兩階段訓練目標不一致問題,使隱空間與生成任務高度適配。訓練效率革命性提升REPAE僅需傳統方法145的訓練步數即可收斂,且生成質量顯著超越現有方...
2025-04-21 09:20:47 1479瀏覽 0點贊 0回復 0收藏
文章鏈接:https:arxiv.orgpdf2504.08736項目鏈接:https:silentview.github.ioGigaTok代碼鏈接:https:github.comSilentViewGigaTok亮點直擊分詞器規模擴展中存在的重建與生成困境源于更大規模分詞器隱空間復雜度的提升。本文提出語義正則化方法,有效緩解該困境從而實現分詞器的規模擴展。探索了分詞器規模擴展的最佳實踐方案,包括:采用混合CNNTransformer架構的一維分詞器、非對稱編碼器解碼器擴展策略,以及針對十億級分...
2025-04-18 09:56:15 1692瀏覽 0點贊 0回復 0收藏