不用GAN不用擴散,無需訓練解鎖AI生圖新境界!判別模型成神秘第三極
判別模型與生成模型長期以來彼此獨立,前者專注于分類和識別,后者用于數據生成。
最近一項名為「直接上升合成」(Direct Ascent Synthesis,DAS)的獨立研究,顛覆了這一傳統觀念,揭示出判別模型中隱藏著令人驚嘆的生成能力。
論文鏈接:https://arxiv.org/abs/2502.07753
DAS的核心觀點挑戰了人們對判別模型和生成模型的傳統認知。
研究人員發現,判別模型并非只能用于判別任務,其內部實際上蘊含著豐富的生成知識。通過合適的優化技術,判別模型可以突破傳統角色,成為強大的圖像合成工具。
以CLIP模型為例,它能夠將圖像映射到嵌入向量,這些嵌入向量不僅包含了圖像的語義信息,還捕捉到了自然圖像的結構特征。
然而,傳統的反向映射嘗試,即將嵌入向量轉換回圖像時,往往會遇到問題。以往的方法通常會產生退化的結果,生成的圖像在數學上與目標嵌入向量匹配度很高,但在人類觀察者眼中卻像是毫無意義的噪聲。
這種現象在對抗樣本的研究中尤為明顯,也揭示了表示匹配與感知質量之間的矛盾。
DAS的研究者們卻從中獲得了靈感,他們認為這種看似的限制實際上是一個機會。
在可能的反向映射空間中,既存在自然圖像,也存在對抗模式。通過精心設計的優化方法,就有可能引導模型生成自然且有意義的圖像,從而挖掘出判別模型中隱藏的生成能力。
關鍵創新:多分辨率優化
DAS的關鍵創新在于多分辨率優化。它打破了傳統優化直接在像素層面操作的局限,將圖像分解為多個不同分辨率的組件進行同時優化:
其中,表示分辨率為r的圖像組件,圖像被表示為從1×1到224×224分辨率的一系列組件之和。
從正則化角度來看,多分辨率分解提供了一種自然的正則化方式。它通過強制不同分辨率之間的一致性,避免了優化過程中出現退化的高頻解決方案,而這些高頻噪聲往往是傳統對抗優化產生無意義圖像的原因。
同時,不同分辨率的組件能夠在合適的尺度上捕捉語義信息,比如低分辨率組件可以把握圖像的整體結構,高分辨率組件則專注于細節,從而使生成的圖像在語義上更加連貫。
在優化目標的設定上,DAS通過衡量生成圖像與目標描述(如文本描述對應的嵌入向量)的CLIP嵌入相似度來進行優化:
其中,i對多個CLIP模型進行索引,j對增強操作進行索引。
公式具有幾個關鍵特性:1)所有分辨率的組件同時進行優化;2)梯度根據各尺度的重要性自然地分布;3)通過尺度分解抑制高頻對抗模式。
梯度會根據不同分辨率組件的重要性自然地分布,進一步促進了生成過程朝著符合自然圖像統計結構的方向發展。
最終生成圖像的功率譜遵循1/f2分布,這正是自然圖像的典型特征,證明了多分辨率優化生成圖像的有效性。
DAS實現細節
研究者采用了幾種技術來確保穩定且高質量的生成:
數據增強
研究發現,隨機的x-y位移和像素噪聲這兩種簡單的數據增強方式,與多分辨率先驗協同工作,能夠顯著提升生成的穩定性和圖像質量。
單獨使用其中任何一種增強方式效果都有限,但兩者結合,就能為模型在優化過程中提供更多的變化和穩定性,使得生成的圖像更加多樣化且自然。
更復雜的數據增強方式可能會進一步提高生成質量,這為后續研究留下了探索空間。
位移處理
在處理圖像位移時,DAS采用了一種獨特的策略。與傳統的填充方法不同,它在生成圖像時,會將圖像尺寸擴大為(H+2s)×(W+2s),其中s是最大位移量。
這樣在進行位移增強時,圖像就有了足夠的緩沖空間,避免了因位移導致的邊界問題。最后,再將生成的圖像中心裁剪為所需的H×W尺寸,確保圖像的完整性和一致性。
模型集成
為了進一步提高生成質量,DAS采用了模型集成的方法。它平均了三個CLIP模型(OpenAI ViT-B/32 和兩個 OpenCLIP ViT-B/32 變體,分別在不同數據集上訓練)的梯度。
雖然單個模型也能實現圖像生成,但通過模型集成,能夠在一定程度上提升生成圖像的質量和穩定性。
不過,研究人員也發現,部分CLIP模型在轉換為生成器時表現不佳,目前還沒有明確的原因,有待后續研究。
框架擴展
DAS的框架具有很強的擴展性,在多目標向量方面,生成過程可以由多個加權目標引導,通過不同提示的組合,實現對生成圖像的精細控制。
在風格遷移和重建任務中,目標嵌入可以來自文本,也可以來自參考圖像。
基于CLIP模型強大的表示能力,即使經過大幅度的維度壓縮,DAS仍然能夠在重建過程中保留圖像的語義內容和風格元素。
實驗結果與分析
研究人員對DAS進行了全面的實驗,從多個角度驗證了其性能和優勢。
實驗聚焦在四個關鍵方面:生成一致性、可控修改、重建保真度以及在不同應用中的通用性。
研究者采用3個CLIP模型進行集成:OpenAI ViT-B/32、兩個OpenCLIP ViT-B/32變體。上述模型均基于ViT架構,但也驗證了非ViT模型同樣可以取得類似的生成效果。
生成質量與一致性
在生成質量和一致性實驗中,研究人員選擇了兩個具有挑戰性的提示:火山爆發和冬夜的劍橋。
多次運行DAS生成圖像的結果顯示,它在生成過程中表現出了高度的可靠性。
在語義一致性方面,每次生成的圖像都能保持一致的高級特征,比如火山場景中的火山灰柱結構和景觀融合,劍橋場景中的建筑主題和冬夜氛圍都非常穩定。
在構圖理解上,生成的圖像展現出了復雜而合理的構圖,即使沒有經過專門的構圖訓練,也能自然地平衡前景和背景,體現出對場景結構的理解。
此外,不同運行結果之間的差異呈現出自然圖像的特征,如光照變化、視角微調等,而非對抗模式,這表明多分辨率先驗成功地將優化過程限制在了自然圖像流形內。
可控修改
在可控修改實驗中,研究人員以一張原始圖像為基礎,根據不同的文本提示對圖像進行修改。
結果表明,DAS能夠實現精確的局部調整和全局場景轉換。
在結構保存方面,圖像的核心幾何結構和空間關系在修改過程中得以保留,比如道路場景中,道路的基本形狀和位置不會因為修改提示而被破壞。
語義控制上,圖像的修改能夠準確響應文本提示,并且保持物理上的合理性,像下雪的道路場景中,雪會自然地堆積在路面上。
在多尺度協調方面,新添加的元素能夠在不同空間尺度上無縫融合,火山爆發場景中,不僅有大規模的地形變化,還有局部的大氣效果,兩者協調一致。
嵌入引導的重建
從CLIP嵌入中重建圖像是對DAS的一項嚴格測試,因為這需要從高度壓縮的表示(從150,528維壓縮到512維)中恢復高維圖像結構。
實驗結果令人驚喜,DAS 能夠恢復出大量的語義和風格信息。
在語義保留上,主要的場景元素及其關系被一致地恢復出來。風格保留方面,顏色方案、光照條件和藝術特質都能有效地轉移。
構圖保真度上,整體的布局和空間組織保持完整。同時,在細節上還能呈現出自然的變化,使得重建圖像既保留了原始圖像的主要特征,又具有一定的多樣性。
專業應用
在生成國旗的任務中,DAS能夠處理精確的幾何圖案和象征元素,雖然生成的國旗并不完美,但已經能夠清晰地識別出各個國家的國旗特征,像瑞士國旗的精確比例和巴西國旗復雜的星星圖案都能得到較好的呈現。
在圖像修復任務中,DAS可以根據給定的提示(如「夜晚的城市天際線」)生成與現有圖像上下文無縫融合的內容,展示出其在處理邊界條件和結構連續性方面的優勢。
這表明,DAS能夠在多種復雜任務中發揮作用,且不需要針對特定任務進行專門的訓練或架構修改。
風格遷移
在風格遷移方面,DAS 同樣表現出色。通過將起始圖像向風格圖像的嵌入方向優化,DAS能有效地實現風格遷移。
與傳統的基于像素空間優化的風格遷移方法相比,DAS生成的結果更加自然,高頻偽影更少,而且所需的優化步驟也更少。
這使得DAS成為了傳統風格遷移技術的有力替代方案,為用戶帶來更加流暢和高質量的風格遷移體驗。