MSRA古紓旸:2024年,視覺生成領域最重要的問題有哪些? 精華
文章鏈接: https://arxiv.org/pdf/2407.18290
亮點直擊
- 概述了視覺生成領域中的各種問題。
- 這些問題的核心在于如何分解視覺信號,其他所有問題都與這一核心問題密切相關,并源于不適當的信號分解方法。
- 本文旨在引起研究人員對視覺信號分解重要性的關注。
問題1:生成模型的目標是什么?
在作者看來,生成模型的設計目的是“創造人們所設想的”。數字信號的生成需要經過三個里程碑:
- 第一個里程碑是將用戶的想法翻譯成計算機可以理解的格式 。具體來說,這需要識別要生成的信號的模態,這可以是文本、3D物體、視頻或其他形式。隨后,必須確定在給定條件下要生成的狀態。從流形學習的角度來看,這一過程對應于首先確定包絡空間的維度D,然后識別模型要模仿的目標分布。
- 在生成建模領域,許多研究人員專注于如何建模這一挑戰。主要的障礙是目標分布的固有復雜性,這通常使得建模變得非常艱難。因此,研究人員不斷尋找具有更強建模能力的模型。特別是在視覺生成領域,近年來流行的方法包括基于能量的模型(Energy-Based Models)、變分自編碼器(VAEs)、生成對抗網絡(GANs)、擴散模型(diffusion models)等。
- 同時,許多研究人員進一步探索更高級的目標,研究如何以更高的效率和更好的可解釋性生成結果。這些研究對實際部署、安全性和負責任AI的發展具有重大意義。
問題2:視覺信號分解問題
建模分布的努力帶來了巨大的挑戰,特別是當目標是生成令人信服的文本內容或視頻時。這些類型的數據代表了embedding在極高維空間中的低維流形,使得用單一網絡直接擬合這些分布變得不切實際。因此,需要將復雜的分布建模問題分解成多個更簡單的問題,并分別解決每個子問題。這引出了一個問題:如何有效地分解這個復雜的分布建模問題?
語言分解
大語言模型的成功在很大程度上歸功于對文本信號的有效分解。考慮建模文本序列的任務,其中表示從前到后第t個位置的token。
這可以基于位置分割成一系列條件建模子任務: 大語言模型采用自回歸模型來近似這些條件分布映射。這種方法的一個關鍵方面是,對于自然語言,分解的子任務本質上是相互關聯的。例如,一個短語是“我喜歡游泳”,它可能出現在句子的開頭或中間。換句話說,它可以出現在任何子任務中。有了足夠大的數據集,游泳我喜歡和游泳你喜歡打籃球,我喜歡代表兩個高度相關的任務,可以相互作為數據增強。換句話說,不同的子任務是“等變”的。讓我們給“等變”一個嚴格的數學定義。
定義1 假設目標分布是,將信號分割成多個子任務: ... 對于第t個條件概率擬合任務,采用網絡θ來擬合它。對于任意兩個任務t和k以及兩個狀態樣本s和,如果
將這種信號分解稱為等變。
可以觀察到,語言分解是獨立于位置的。對于任何token 或短語,它們在句子中第t個或第k個位置出現的概率幾乎相同。這一觀察結果與方程2一致,因此表明語言分解表現出等變性。因此,采用單一模型來近似這些不同但相關的任務通常不會導致沖突,實際上,這對數據的整體建模非常有利。
圖像塊分解
這種分解和建模的策略在語言領域取得了顯著成功。然而,將這一方法復制到通過空間位置分解圖像會面臨不同的挑戰。早期的嘗試包括將圖像分割成空間塊以創建可以由自回歸模型處理的序列。然而,與自然語言不同,圖像塊本質上缺乏“等變”特性。如下圖1所示,雖然單行塊內存在連續性,但這種連續性在一行的最后一個塊和下一行的第一個塊之間是不存在的。除了連續性之外,還存在其他特定數據集的挑戰,例如人類主體傾向于居中在圖像中。因此,采用單一、通用的模型來涵蓋所有這些不同的分布通常會導致沖突。此外,模型必須努力學習由多個不同分布組成的復雜聯合分布映射問題,這破壞了分解復雜分布以簡化建模的原則。雖然位置embedding的整合可以緩解一些這些沖突,但這并不是解決問題的萬能藥。
深度分解
除了空間分割,一些研究人員還探索了沿深度維度分割圖像數據。這種方法直觀上具有吸引力,因為每個圖像空間位置存在大量信息,例如需要8位每通道的三通道RGB表示。另一方面,圖像的高空間維度通常需要使用變分自編碼器(VAE)來降低維度。結合這兩個方面,按深度分割數據的著名方法包括VQVAE2和RQVAE。首先,這些方法可能會遇到“無效編碼”問題,將在問題3中詳細說明。此外,與自然語言不同,深度維度也不表現出“等變”性。以RQVAE為例,在相同的空間位置,早期token表示低頻信息,而后期token表示高頻信息。因此,應用具有共享參數的自回歸模型來建模這些不同的分布映射可能會導致沖突。一種替代方法,如MUSE,建議將問題分割成更少數量的獨特子任務,每個子任務獨立建模且不共享參數。然而,隨著數據分布變得越來越復雜,這可能需要更多的子任務,導致所需模型參數激增,并可能加劇“無效編碼”問題。
噪聲強度分解
擴散模型提出了另一種有趣的信號分解方法:通過一系列逐步去噪的圖像序列來表征圖像。對于數據集中給定的圖像,通過馬爾可夫過程逐步添加噪聲以生成序列,其中幾乎是純噪聲,幾乎沒有原始圖像信息的殘留。這個過程有效地將圖像分布建模任務分解為N個去噪子任務:,其中t = [0, 1, ..., N-1]。雖然所有子任務都涉及去噪,但在理論上,它們之間共享參數似乎是可行的。然而,在實踐中,典型的噪聲添加策略可能會導致去噪階段的差異,特別是當噪聲水平顯著不同時。這些非等變任務導致了與基于深度分解挑戰類似的困境:使用共享參數的模型來擬合復雜的數據分布映射是對模型能力的巨大挑戰。如果不共享參數,這可能會迅速增加模型的大小。一些研究,如eDiff-I,已經嘗試從實現的角度在參數效率與擬合分布的復雜性之間取得平衡。此外,重新參數化技巧被證明是統一不同去噪任務的輸出分布的極其重要的技術,緩解了不同噪聲強度之間的沖突。然而,它并沒有消除輸入分布的差異。關于擴散模型中噪聲強度沖突的這些問題將在問題4中進一步探討。
可學習的分解
在回顧擴散模型后,發現沖突的程度取決于所選擇的噪聲策略,這通常是手動預先定義的。因此,一些研究人員嘗試定義更優的噪聲策略,努力確保在不同噪聲水平下去噪過程具有一定程度的相似性。在這一領域的顯著工作包括流匹配(Flow Matching)和一致性模型(consistency models)。與此同時,其他研究人員正在探索添加噪聲策略是否可以學習,而不是預先設定。該領域的顯著進展包括變分擴散模型(Variational Diffusion Models, VDM)和擴散薛定諤橋(Diffusion Schr?dinger Bridge, DSB),盡管并非所有此類工作都是以此目標為出發點。特別地,VDM專注于學習添加高斯噪聲的系數,這在一定程度上限制了學習以減輕沖突的潛力。同時,基于薛定諤橋范式的研究使用專門的網絡來學習添加噪聲的過程,迭代地逼近熵正則化的最優傳輸。然而,當前的可學習分解方法并不是根據“等變”特性設計的。未來的工作可能需要將其作為先驗來約束可學習分解中的網絡學習。此外,當用網絡替代預定義的隨機微分方程(SDE)進行噪聲學習時,會出現顯著的權衡:在實際應用中,利用重新參數化來統一輸出分布的挑戰,成為減輕不同噪聲強度沖突的關鍵技術。盡管近期的努力已經開始解決這些問題,但仍然不足以滿足實際應用的需求。
擴展討論
從信號分解的角度來看,關于自回歸(AR)模型、擴散模型或其他模型架構在視覺生成中哪種更優的爭論并不特別有益。根本考慮是信號是如何被分解的,以及選擇的生成范式是否有利于所選的分解方法。理想情況下,可能有兩種分解范式:一種類似于語言模型所采用的方法,將復雜的數據分布簡化為一系列展現“等變”的簡單條件數據分布;另一種策略涉及將數據分解成多個獨立的分布問題,這可以被視為“等變”的特例。
作者認為,在圖像分解中實現等變的困難并不僅僅是因為圖像是二維數據而語言是一維的。近期的研究嘗試將圖像編碼為一維token,但這些一維token既不獨立也不等變。
雖然可學習的分解方法在理論上有潛力實現這種“等變”,但它們的實際應用目前充滿挑戰。另一種可行的方法可能是整合各種信號分解技術以簡化數據分布。例如,視頻可以分解為時間上“等變”的幀,然后可以進一步基于“噪聲強度”或“圖像塊”進行細分。類似地,MUSE最初沿深度維度分解圖像信號,然后從“噪聲強度”維度處理分布映射。
信號分解是根本性的問題,許多后續問題可以視為對其的擴展,旨在緩解當前視覺信號分解中的非等變性問題。
問題 3:分詞問題
當前主流的圖像和視頻生成模型主要采用兩階段方法:首先將數據編碼為緊湊的低維表示,然后對這一壓縮分布進行建模。第一階段壓縮的目的是在盡可能保留原始信息的同時簡化數據分布,從而減輕隨后的模型擬合階段所面臨的復雜性。在文本數據的背景下,降維可以被認為是無損的。相比之下,視覺數據的壓縮,無論是通過自編碼器(AE)還是變分自編碼器(VAE),本質上都是有損的。然而,“壓縮損失越小越好”這一斷言并不一定成立。
一個典型的例子是,用AE壓縮的信號可能比用VAE壓縮的信號重建得更好,但壓縮數據分布中保留的復雜性仍然給第二階段的擬合過程帶來了挑戰。因此,研究人員在壓縮過程中引入正則化約束,以防止數據分布變得過于復雜。重建保真度與擬合難度之間的沖突是各個領域中常見的挑戰。在音頻處理領域,連續音頻信號通常被編碼為長度為16的token,擬合階段通常集中在前8個token上。類似地,在圖像處理領域,GLOW和VDM++也發現對5位深度圖像的訓練結果比使用完整8位深度的圖像更好。這些觀察結果強調了采用自適應長度編碼策略以更好地平衡重建精度和第二階段擬合任務復雜性的重要性。
可變長度編碼的一個典型例子是RQVAE,它在潛在空間中迭代編碼重建誤差,旨在實現越來越精確的圖像重建。然而,如下圖2所示,我們觀察到更深的編碼并不總是與更好的重建質量相關聯。我們將此稱為“無效編碼”問題。為調查這一問題,我們進行了一系列綜合實驗,修改網絡架構、學習率、損失函數權重和碼書大小,此外還測量了不同編碼長度下“無效編碼”的頻率。表1顯示,編碼長度越長,遇到無效編碼問題的概率越高。然而,我們尚未得出任何關于導致這一問題的特定條件的普遍結論。下面,我們提供一個直觀但不嚴格的解釋:
令D表示解碼器,I表示原始輸入圖像。在不同深度的編碼分別表示為,其中N是編碼深度,在此情況下我們假設為4。因此,RQVAE的重建損失L可以被視為以下四個重建損失的組合:
在此基礎上,我們做出兩個假設以簡化分析。首先,假設解碼器作為線性變換功能,從而使結果的分析更為簡便。其次,根據標準配置,對這四個損失賦予相等的損失權重。在這些假設下,上述重建損失的計算可以簡化如下:
因此,最小化圖像級重建損失的潛在空間表示為:
這并不能保證比更接近arg min X。假設不同深度的編碼共享一個公共的代碼本,并且是獨立同分布的,那么后者的和必定會比前者更接近真實值。因此,這導致了“無效編碼”問題。
問題 4:擴散模型是否是最大似然模型?
自回歸模型是經典的最大似然模型,通過計算似然函數來促進各種復雜任務,包括操控生成結果和評估其質量。一個有趣的問題是:擴散模型是否也可以被視為最大似然模型?對去噪擴散概率模型的最初研究源于最大似然來推導訓練損失函數。[45]提出了ELBO訓練的損失權重設置。此外,VDM++表明,使用單調權重優化等同于通過分布增強最大化似然函數。然而,在實際訓練中,通常采用不同的損失權重。目前的主流實踐,例如SD3,并未完全接受這一原則。
巧合的是,這種困惑在生成和評估過程中都出現。在生成過程中,觀察到直接從似然模型θ中采樣的結果往往不如通過無分類器引導修改后的結果:,其中λ是無分類器引導的尺度。這可以推導為[49]從中采樣。我們可以很容易地發現,這種調整將似然函數與后驗分布結合在一起,暗示著最大化似然并不總是等同于最佳結果。在評估階段,這個問題進一步得到證實,其中具有較低負對數似然(NLL)分數的模型并不總是對應于最美觀的視覺結果或最低的Fréchet Inception Distance(FID)指標。這引出了一個微妙但關鍵的問題:為什么最大化似然并不一定導致最佳結果?
?
這是一個可能的理解。如[21]所闡明的,評分匹配與非歸一化似然的最大化密切相關。通常,評分匹配可以避免最大似然學習中傾向于將所有數據點賦予相等概率的問題。在某些特殊情況下,如多變量高斯分布,它們是等變的。VDM++闡明,使用單調損失權重w(t)進行訓練實際上等同于最大化所有中間狀態的ELBO。這種特定的加權表示不同噪聲水平對最終模型性能的不同重要性。然而,正如問題2中討論的,圖像數據缺乏“等變性”。在實際訓練中,學習似然函數的難度隨噪聲強度變化;直觀地,最大難度出現在中等噪聲水平,此時似然函數往往學習得不夠準確。在生成過程中,使用無分類器引導可以被解釋為對學習不佳的似然函數的修正。這在[29]中尤為明顯,無分類器引導在中等噪聲水平下極其重要。在模型評估中,由于不同噪聲水平的任務對最終結果的重要性程度不同,對這些NLL損失應用統一權重可能無法有效衡量最終生成輸出的質量。
問題5:對于擴散模型,如何平衡不同SNR(信噪比)之間的沖突?
如前所述,擴散模型與文本生成中的自回歸模型不同,它們在各種子任務之間不保持“等變性”。一些研究將擴散模型按照噪聲強度進行分類,并明確利用專家混合(MOE)策略進行模型擬合。eDiff-I和 SDXL等工作就是這一方法的例子,每個模型不共享參數。這些方法的關鍵在于任務的戰略性劃分,因為子任務不僅相互沖突,而且具有相關性。通過利用這些相互關系,可以提高模型收斂的效率并抑制模型參數的指數增長。
其他方法嘗試在不增加參數數量的情況下調和不同噪聲強度之間的沖突。根據VDM++,訓練目標是損失加權和重要性采樣的組合。
其中,λ表示信噪比(SNR)的對數,x表示訓練圖像,λ是噪聲強度λ下的噪聲圖像。λ和λ分別表示噪聲水平λ下的損失權重和采樣頻率。
因此,為了平衡各種噪聲強度,可以調整損失權重或實現不同SNR下的重要性采樣。
MinSNR是一項值得注意的研究,它精心設計了損失權重,旨在通過追求帕累托最優優化方向來規避沖突。SD3和 HDiT等研究經驗上發現,增加中等范圍SNR的權重可以帶來更好的結果。如公式6所示,調整損失權重w(λ)的效果與修改采樣頻率p(λ)相似。然而,在實際操作中,增加重要任務的損失權重等同于提高學習率,而增強頻率則可以視為分配更多計算資源(Flops),這通常會導致更好的性能。
從另一個角度來看,對不同噪聲水平進行重要性采樣可以被視為設計噪聲調度,或者說是信號分解的一種類型,正如我們在問題2中討論的。當對不同空間位置施加獨立同分布(i.i.d.)高斯噪聲時,之前的研究表明,根據token長度調整噪聲調度是必要的,并確保在最后一步沒有信號泄漏[32, 50]。 [15] 實證地引入了一個噪聲調度來進行訓練,這實現了更高效的收斂,并且在各種條件下證明了其有效性。然而,這可能需要根據目標分布調整超參數,并且在推斷過程中缺乏沖突分析。作者推測,放棄使用i.i.d.高斯噪聲進行信號分解可能是解決這些沖突的一個基本方法。
問題6:擴散模型是否符合縮放規律?
重新思考大語言模型(LLMs)的顯著成就,其中一個關鍵因素是縮放規律。這自然引發一個問題:視覺生成中的擴散模型是否也符合縮放規律?
解決這個問題的挑戰在于缺乏與人類感知一致的評估指標來評估模型的性能。在通過自回歸模型進行語言建模時,“等變性”原則使得通過對不同子任務的負對數似然損失進行等權重分配來評估模型性能成為可能。相比之下,擴散模型中的子任務缺乏這種等變性;它們對最終生成的結果的貢獻程度各不相同。因此,簡單的等權重損失聚合無法全面捕捉生成模型的能力。
為了發現適當的指標,第一個嘗試是為各種子任務構建重要性系數。根據[15]定義的新噪聲調度可以視為對不同任務賦予“難度系數”。我們將其視為“重要性系數”,并利用它來對不同噪聲強度下的損失進行加權。對于訓練text2image模型,我們使用了COYO數據集,其中包含700M文本-圖像對。我們訓練了四個模型,參數數量分別為32.28M、128.56M、454.98M和671.32M。為了方便起見,我們將它們token為S、M、L和XL。所有模型都使用1024的批量大小進行訓練。使用“重要性加權損失”作為指標來測量模型的性能。按照[47]的方法,利用[22]中的公式來基于S、M、L模型估計XL模型的性能。結果如下圖3所示。左側圖預測了模型性能與參數數量的關系,而右側圖預測了模型性能與訓練迭代次數的關系。可以看到,兩種預測都非常準確,盡管由于資源限制,驗證的規模相對有限。然而,必須注意的是,目前沒有直接證據證明這些指標與人類判斷一致。
第二種策略是采用已建立的生成模型評估指標,其中Fréchet Inception Distance(FID)是最常見的。FID旨在量化兩個數據分布之間的差異。然而,當處理大規模生成模型和極其復雜的數據分布時,準確捕捉目標分布變得具有挑戰性,難免導致FID評分的偏差。此外,FID假設從神經網絡提取的特征向量遵循高斯分布,這引入了顯著的系統誤差。同時,一些研究[36, 13, 3]還強調了FID指標的其他問題。
為了確保與人類偏好的對齊,最關鍵的方法是使用廣泛的人類注釋作為評估基準。以text2image生成作為例子,一種潛在的方法是收集大量高質量的文本-圖像對。對于待測試的生成模型,它們可以基于給定的文本提示生成結果。用戶評估生成的圖像和真實圖像哪個更符合他們的偏好。理論上,隨著模型質量的提高,這種生成結果的偏好率應趨近于0.5。這個偏好率可以作為縮放規律的指標,提供關于計算資源、模型規模和數據規模如何影響模型最終性能的見解。值得注意的是,擴散基礎視覺模型的輸出質量對所選擇的推斷策略[23, 18]高度敏感,這與大語言模型有顯著不同。具有捕捉人類偏好的指標,這一因素值得進一步探索。
本文轉自 AI生成未來 ,作者:Shuyang Gu
