零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成

發布于 2025-3-24 00:57

瀏覽

0收藏

Efficient Personalization of Quantized Diffusion Model without Backpropagation

2025-03-19｜SNU, INMC&IPAI|??18

???http://arxiv.org/abs/2503.14868v1????
????https://huggingface.co/papers/2503.14868????
????https://ignoww.github.io/ZOODiP_project/???

研究背景與意義

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成-AI.x社區

當前擴散模型在圖像生成領域表現出色，但其訓練、微調和推理過程需要大量的計算和內存資源。盡管量化技術成功減少了推理時的內存使用，但訓練和微調這些量化模型仍需大量內存，這主要歸因于反量化以精確計算梯度及反向傳播所需的內存。個性化任務通常需要在邊緣設備上用少量用戶提供的圖像對擴散模型進行微調，這對內存受限的設備提出了重大挑戰。本文提出了一種基于零階優化的擴散模型個性化方法（ZOODiP），它通過量化模型、子空間梯度優化和定制的時間步采樣策略，顯著降低了內存需求。

研究方法與創新

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成-AI.x社區

ZOODiP的核心在于結合零階優化與量化模型，從而避免了反向傳播及其相關的內存開銷。具體而言，該方法利用以下三個關鍵觀察點：首先，零階優化能夠有效處理不可微的目標函數；其次，文本反轉中的標記主要在一個低維子空間內變化，通過主成分分析發現初始和個性化標記主要更新在這個子空間內；最后，基于先前工作，不同時間步在擴散模型中扮演不同角色，因此可以識別出有效的個性化時間步區間。基于這些觀察，ZOODiP引入了子空間梯度（SG）來加速訓練，并通過投影過去標記的歷史構建子空間以消除噪聲梯度維度。此外，還提出了部分均勻時間步采樣（PUTS），專注于特定的有效時間步，進一步提升效率。

實驗設計方面，ZOODiP采用隨機梯度估計（RGE）來估算量化模型上的梯度，同時利用PCA分析標記軌跡以確定低方差特征向量，從而從估計的梯度中投影出噪聲維度。這種方法不僅顯著減少了內存使用，還通過聚焦于低維子空間和有效時間步提升了訓練速度和性能。

實驗設計與結果分析

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成-AI.x社區

為了驗證ZOODiP的有效性，研究者進行了定量和定性的對比實驗。定量結果顯示，ZOODiP在CLIP-I和DINO等指標上取得了與現有方法相當甚至更優的表現，同時將訓練內存需求降至2.37GB，比DreamBooth減少了87.8%的內存消耗。定性結果表明，ZOODiP生成的圖像高度忠實于提示詞和參考圖像，展現出強大的文本-圖像對齊能力。此外，消融研究表明，子空間梯度和部分均勻時間步采樣對性能有顯著提升作用。

結論與展望

ZOODiP通過結合零階優化、量化模型、子空間梯度和部分均勻時間步采樣，成功實現了在內存受限環境下的擴散模型個性化。未來工作可進一步探索更高效的優化策略和時間步采樣方法，以適應更多應用場景。此外，雖然ZOODiP在當前實驗中表現優異，但在某些極端情況下仍可能存在性能波動，這需要后續研究加以改進。

LEGION: Learning to Ground and Explain for Synthetic Image Detection

2025-03-19｜SJTU, Shanghai AI Lab, BUAA, SYSU, SenseTime|??8

???http://arxiv.org/abs/2503.15264v1????
????https://huggingface.co/papers/2503.15264????
????https://opendatalab.github.io/LEGION???

研究背景與意義

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成-AI.x社區

隨著生成技術的快速發展，合成圖像檢測成為一項兼具挑戰性和社會意義的任務。當前方法往往缺乏對圖像偽造細節的解釋能力，并且過于關注圖像操縱檢測，而忽略了全合成圖像中的復雜偽影分析。此外，現有數據集通常存在生成器過時、標注粗糙等問題，難以支持深入研究。

SynthScars 數據集的引入旨在解決這些問題。它包含 12,236 張高質量全合成圖像，涵蓋多樣內容類型和精細標注，包括像素級分割、詳細文本解釋及偽影類別標簽。LEGION 框架則進一步通過多模態大語言模型（MLLM）實現了偽影檢測、分割與解釋的集成，不僅作為防御者檢測偽造圖像，還作為控制器指導生成更高質量的圖像。

這項研究的意義在于推動合成圖像檢測技術的發展，同時探索其在圖像生成領域的潛在應用價值，為生成式 AI 的可控發展提供了新思路。

研究方法與創新

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成-AI.x社區

LEGION 框架的核心在于結合 MLLM 的強大推理能力和視覺任務的具體需求，實現從偽影檢測到圖像優化的全流程覆蓋。以下是其主要創新點：

雙層標注體系SynthScars 數據集采用像素級掩碼與文本解釋相結合的方式，提供更精確的偽影定位和語義理解。這種細粒度標注方式顯著提升了模型的學習效率和泛化能力。
多任務框架設計LEGION 集成了偽影檢測、分割和解釋三個子任務，通過全局圖像編碼器、LLM、接地圖像編碼器和像素解碼器四個核心組件協同工作。具體而言：

全局圖像編碼器提取輸入圖像特征。
LLM 根據視覺信息生成自然語言解釋。
接地圖像編碼器用于偽影區域的精確定位。
像素解碼器輸出二值掩碼以標識偽影位置。

迭代優化策略LEGION 不僅能檢測偽影，還能通過反饋機制指導圖像生成模型逐步消除偽影。例如，在圖像再生過程中，LEGION 提供的解釋被用于修訂初始提示詞；在圖像修復中，LEGION 輸出的掩碼和解釋引導逐區域選擇性優化。
跨領域適配能力實驗表明，LEGION 在多個基準測試中表現出色，尤其在 SynthScars 數據集上超越了第二強的傳統專家模型 3.31% 的 mIoU 和 7.75% 的 F1 分數。這得益于其強大的泛化能力和對復雜偽影的理解深度。

這些創新點共同構成了 LEGION 的獨特優勢：既能精準定位偽影并提供可解釋結果，又能有效指導生成模型提升輸出質量。

實驗設計與結果分析

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成-AI.x社區

實驗部分驗證了 LEGION 在偽影定位、解釋生成和圖像優化方面的性能。以下是關鍵結果：

偽影定位評估使用 SynthScars 數據集的訓練集進行訓練，并在測試集上評估。此外，還測試了模型在 LOKI 和 RichHF-18K 等未見領域上的泛化能力。結果顯示，LEGION 在所有三個數據集上均達到 SOTA 性能，尤其在 SynthScars 上表現突出。
解釋生成評估通過 ROUGE-L 和 CSS 指標衡量生成文本與真實標注的一致性。LEGION 在這兩個指標上分別達到 39.50 和 72.60（歸一化后），顯著優于其他多模態模型。
圖像優化評估在圖像再生和修復任務中，LEGION 引導生成模型逐步改進輸出質量。實驗使用 Human Preference Score (HPS) 衡量改進效果，結果顯示優化后的圖像偏好得分平均增長 6.98%（再生）和 2.14%（修復）。

總體來看，LEGION 在各項任務中均展現出卓越性能，證明了其方法的有效性和魯棒性。

結論與展望

本研究提出 SynthScars 數據集和 LEGION 框架，解決了現有合成圖像檢測方法中存在的數據質量和方法局限問題。LEGION 不僅能夠精準檢測偽影并提供可解釋結果，還能作為控制器指導生成模型優化輸出質量。

然而，該方法仍存在一些局限性。例如，全合成偽影的多樣性與靈活性使得完全自動化檢測仍具挑戰；此外，LLM 的推理成本較高，可能限制實際應用范圍。未來工作可以圍繞以下幾個方向展開：

開發更高效的語言模型以降低計算開銷。
探索無監督或弱監督學習方法以減少人工標注依賴。
深入研究全球性推理能力以應對復雜偽影。

LEGION 的成功應用展示了合成圖像檢測與生成技術的雙向促進關系，為生成式 AI 的負責任發展開辟了新路徑。

MusicInfuser: Making Video Diffusion Listen and Dance

2025-03-18｜U Washington, U Washington, U Washington, U Washington|??8

???http://arxiv.org/abs/2503.14505v1????
????https://huggingface.co/papers/2503.14505????
????https://susunghong.github.io/MusicInfuser???

研究背景與意義

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成-AI.x社區

MusicInfuser的提出旨在解決現有AI視頻生成工具（如Sora、Gen、Veo）僅能生成無聲視頻的問題。盡管事后可以添加音樂，但要生成與特定音樂節奏同步的動作卻十分困難。傳統方法依賴于昂貴的動作捕捉數據或重建動作，這些方法存在資源密集、浮動和抖動問題等局限性。MusicInfuser通過輕量級音樂-視頻交叉注意力和低秩適配器，無需動作捕捉或重建，直接利用舞蹈視頻進行訓練，成功實現了高質量且自然響應音樂節奏和模式的舞蹈動作生成。這種方法不僅保留了基礎模型的豐富舞蹈風格知識，還為用戶提供了一個靈活的接口，可以通過文本提示控制舞蹈風格、場景和其他美學元素。

研究方法與創新

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成-AI.x社區

MusicInfuser的核心在于其獨特的適應架構和策略。首先，它引入了一種零初始化交叉注意力（ZICA）適配器，用于在保持基礎模型原有能力的同時，逐步融入音樂條件信息。具體來說，音頻信號通過專用音頻編碼器提取時間與頻譜特征后，經過可學習投影器映射到與視頻標記相同的嵌入空間，從而通過交叉注意力層建立音頻模式與視覺編舞之間的關聯。

此外，MusicInfuser采用了高秩低秩適配器（HR-LoRA），以有效建模運動適應性，特別是針對視頻標記中的時間信息。相較于圖像模型常用的8或16秩，視頻模型需要更高的秩來捕獲時空信息的復雜性。例如，適應齊次變換需要至少增加8個自由度，而一般視頻或復雜人體運動則需要更高秩。

為了優化訓練過程，MusicInfuser提出了Beta-Uniform調度策略。該策略使訓練噪聲分布從Beta分布逐漸過渡到均勻分布，從而在早期階段專注于高頻成分，隨后擴展到所有頻率。這使得模型能夠先影響舞蹈的具體細部，再逐步調整到舞蹈動作的基本結構，最終生成更連貫的舞蹈序列。

實驗設計與結果分析

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成-AI.x社區

實驗部分驗證了MusicInfuser在多個維度上的優越性能。定量評估顯示，MusicInfuser在風格對齊、節拍對齊、身體表現、動作真實性和編舞復雜性等方面均優于基線模型。特別是在AIST測試數據中，MusicInfuser在節拍對齊、成像質量和動作真實性等關鍵指標上表現出色。

此外，MusicInfuser展示了對未見音樂類別的良好泛化能力。通過使用SUNO AI生成的音樂軌道，模型成功生成了多種風格的舞蹈視頻，證明了其能夠將新穎的音頻模式映射到適當的舞蹈動作。速度控制實驗進一步表明，加速或減速音樂軌道會導致生成的舞蹈動作相應調整步伐，同時保持相似的編舞風格。

結論與展望

MusicInfuser通過充分利用預訓練文本到視頻擴散模型中嵌入的豐富編舞知識，成功實現了與音樂同步的舞蹈視頻生成。這一方法無需昂貴的動作捕捉數據，能夠泛化到新的音樂軌道，并支持生成多樣化的編舞和群舞視頻。未來工作可以探索更多樣化的輸入模態組合，以及更復雜的舞蹈場景生成。

通過對MusicInfuser的研究，我們發現其在舞蹈質量、視頻質量和提示對齊等多個維度上顯著優于現有方法。然而，模型仍存在一定的局限性，例如對某些復雜音樂模式的響應可能不夠精確。未來的改進方向包括進一步優化音頻特征提取模塊，增強對多樣化音樂風格的適應能力，以及探索更高效的訓練策略以減少計算成本。

本文轉載自??AI研究前瞻??，作者：胡耀淇

標簽

擴散

模型

場景

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

零階優化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成

Efficient Personalization of Quantized Diffusion Model without Backpropagation

研究背景與意義

研究方法與創新

實驗設計與結果分析

結論與展望

LEGION: Learning to Ground and Explain for Synthetic Image Detection

研究背景與意義

研究方法與創新

實驗設計與結果分析

結論與展望

MusicInfuser: Making Video Diffusion Listen and Dance

研究背景與意義

研究方法與創新

實驗設計與結果分析

結論與展望

目錄