VILA-U:融合視覺理解與生成的統一基礎模型(ICLR2025) 原創
摘要
VILA-U 是一個統一基礎模型,融合了視頻、圖像和語言的理解與生成能力。傳統的視覺語言模型(VLMs)在處理視覺內容的理解和生成任務時,使用獨立的模塊,這可能導致模塊間的不協調和模型復雜度的增加。相比之下,VILA-U 采用單一的自回歸下一個標記預測框架來處理這兩項任務,避免了使用如擴散模型等額外組件的需求。這種方法不僅簡化了模型結構,還在視覺語言理解和生成任務中取得了接近當前最優水平的性能。VILA-U 的成功主要歸因于兩個關鍵因素:一是統一的視覺塔,它在預訓練過程中將離散的視覺標記與文本輸入對齊,從而增強了視覺感知能力;二是在高質量數據集上進行訓練時,自回歸圖像生成能夠達到與擴散模型相似的效果。這使得 VILA-U 能夠在使用完全基于標記的自回歸框架的情況下,與更為復雜的模型表現相媲美。我們的代碼已在??https://github.com/mit-han-lab/vila-u??開源。
1、引言
近年來,大語言模型(LLMs)在各種語言任務中展現出卓越的能力。它們具有遵循指令、零樣本泛化和少樣本上下文學習等吸引人的特性,這激發了研究人員將其與視覺模型相結合,構建用于多模態任務的視覺語言模型(VLMs)。該領域的許多研究(Dai 等人,2024;Liu 等人,2024b;Lin 等人,2023)在視覺語言理解方面取得了顯著成果。在這些工作中,視覺輸入通過像 CLIP(Radford 等人,2021)這樣的視覺模型映射到 LLMs 的語義空間中,通過包含文本 - 圖像對齊目標來彌合兩種模態之間的差距。
除了視覺理解,結合視覺和語言模態的另一個重要研究方向是視覺生成。目前,文本引導的圖像生成主要有兩種流行方法。一種方法是使用擴散模型(Rombach 等人,2022a),這是一種在各種生成任務中都表現強大的工具。另一種方法則是通過向量量化(VQ)將視覺內容轉換為離散標記,然后利用自回歸變壓器進行高質量、多樣化的生成(Esser 等人,2021;Yu 等人,2021;Lee 等人,2022;Tian 等人,2024b;Sun 等人,2024)。
隨著視覺理解和生成技術的迅速發展,將這些技術統一到一個單一的多模態框架中成為一種新興趨勢。在 VILA-U 之前,實現這種統一主要有兩種方法:(1)一種方法(Liu 等人,2024a;Yu 等人,2023a;Xie 等人,2024)利用基于 VQGAN(Esser 等人,2021)的分詞器將視覺輸入轉換為離散標記,并使用自回歸模型進行理解和生成。然而,Xie 等人(2024)指出,基于 VQGAN 的編碼器生成的視覺標記缺乏語義信息,這通常會導致在下游視覺理解任務中性能嚴重下降。(2)另一種方法(Zhan 等人,2024;Ge 等人,2023b;Jin 等人,2023)利用碼本對像 CLIP 這樣的預訓練視覺模型產生的特征進行量化。由于 CLIP 特征編碼了豐富的語義信息,這些方法通常在理解任務上取得明顯更好的性能。但是,這些分詞器缺乏解碼能力,需要外部視覺生成模型(如擴散模型),以生成的視覺標記作為條件來產生視覺輸出。這種方法增加了基礎設施設計的復雜性。現有的大規模基礎模型訓練管道和部署系統已經針對基于下一個標記預測的語言建模進行了高度優化。設計和維護一個額外的堆棧來支持擴散模型將帶來巨大的工程成本。
在這項工作中,我們提出了 VILA-U,這是一個端到端的自回歸框架,具有統一的下一個標記預測目標,適用于視覺和文本輸入。它能夠在視覺語言理解和生成任務中實現有競爭力的性能,而無需像擴散模型這樣的外部組件的幫助。我們確定了統一視覺和語言模態的兩個關鍵原則:(1)現有的統一端到端自回歸視覺語言模型無法實現具有競爭力的視覺理解性能,因為離散的 VQGAN 標記僅在圖像重建損失上進行訓練,并未與文本輸入對齊。因此,在 VQ 視覺塔預訓練期間引入文本對齊以增強感知能力至關重要。(2)如果在足夠規模的高質量數據上進行訓練,自回歸圖像生成可以達到與擴散模型相似的質量。受這些見解的啟發,VILA-U 采用了統一的基礎視覺塔,通過向量量化將視覺輸入轉換為離散標記,并使用對比學習將這些標記與文本輸入對齊。VILA-U 的多模態訓練在一個小尺寸的高質量圖像 - 文本語料庫上,利用統一的下一個標記預測目標對視覺和文本標記進行訓練。
我們在常見的視覺語言任務上對 VILA-U 進行了評估,包括圖像 - 語言理解、視頻 - 語言理解、圖像生成和視頻生成。VILA-U 顯著縮小了端到端自回歸模型與連續標記視覺語言模型在視覺理解性能上的差距,同時引入了具有競爭力的原生視覺生成能力。
2、相關工作
2.1 大語言模型(LLMs)
基于預訓練大規模變壓器(Vaswani 等人,2017)的大語言模型徹底革新了自然語言處理領域。憑借巨大的模型規模和預訓練數據語料庫,大語言模型在各種語言任務中取得了顯著的性能。開源大語言模型的發展,如 LLaMA(Touvron 等人,2023a)、Mixtral(Jiang 等人,2024)和 Vicuna(Chiang 等人,2023),進一步推動了關于如何將大語言模型應用于復雜語言任務的研究。除了在不同領域具有出色的零樣本泛化能力外,大語言模型通常還在定制數據集上進行微調,以在特定任務中獲得更好的性能。指令調整(OpenAI,2023;Chung 等人,2024;Ouyang 等人,2022)也是在應用大語言模型時獲得更好輸出的關鍵步驟。在這項工作中,我們采用 LLaMA-2-7B(Touvron 等人,2023a)模型作為我們的基礎大語言模型。
2.2 視覺語言模型(VLMs)
在這個大語言模型時代,計算機視覺和自然語言處理的結合催生了視覺語言模型。在視覺語言模型中,研究人員利用諸如 CLIP(Radford 等人,2021)、BLIP(Li 等人,2022)和 CoCa(Yu 等人,2022)等視覺基礎模型來提取視覺特征,與文本對齊,并將其輸入到大語言模型中,以實現文本和視覺內容之間的跨模態理解。在這些進展的基礎上,許多視覺語言模型(Alayrac 等人,2022;Li 等人,2023b;Liu 等人,2024b;Lin 等人,2023;Luo 等人,2024;Tian 等人,2024a)已經在廣泛的視覺語言數據上進行設計和訓練,以在視覺理解和推理任務中取得顯著的性能。在這項工作中,我們旨在開發一種視覺語言模型,其視覺理解能力與先前的工作相當,同時還具備新的視覺生成能力。
2.3 統一視覺語言模型
人們已經做出了許多努力來開發能夠生成文本以及視覺內容(包括圖像和視頻)的統一視覺語言模型。在視覺語言模型中,生成視覺內容主要有兩種主流方法。許多工作(Sun 等人,2023b;a;Jin 等人,2023;Ge 等人,2023b;Li 等人,2023c;Ge 等人,2024;Jin 等人,2024;Ge 等人,2023a)將視覺語言模型與像 Stable Diffusion(Rombach 等人,2022a)這樣的擴散模型相結合,以實現高質量的圖像生成。其他工作(Liu 等人,2024a;Yu 等人,2023a;Lu 等人,2023;Team,2024;Xie 等人,2024)采用基于 VQGAN 的視覺編碼器,將視覺輸入轉換為離散標記,并讓大語言模型學習預測這些標記。關于我們的方法與其他統一視覺語言模型之間區別的更多細節,請參見附錄 A。
3、方法
這項工作提出了一個多模態框架,旨在有效地統一視覺和語言模態。實現這種統一的關鍵組件是一個統一的基礎視覺塔,它將視覺輸入轉換為與文本對齊的離散標記,以及一個統一的多模態生成訓練過程。圖 1 展示了我們框架中主要的多模態訓練和推理過程的概述。
圖1:我們框架的多模態訓練和推理過程概述:視覺輸入被標記化為離散標記,并與文本標記連接形成多模態標記序列。所有標記都參與我們的下一個標記預測過程,實現統一的訓練目標。在推理過程中,輸出標記由我們的文本去標記器或視覺塔解碼器解碼,以生成多模態內容。
3.1 統一基礎視覺塔
為了支持多樣化的視覺理解和生成任務,我們首先構建了一個統一的基礎視覺塔,以提供合適的視覺特征。我們建議在視覺塔訓練中納入文本 - 圖像對比損失和基于 VQ 的圖像重建損失,賦予視覺塔文本對齊和離散標記化的能力。如圖 2 所示,從圖像中提取的特征主要通過殘差量化進行離散化。然后,在一條路徑中,離散的視覺特征被輸入到解碼器中以重建圖像并計算重建損失;在另一條路徑中,我們計算離散視覺特征與文本編碼器提供的文本特征之間的文本 - 圖像對比損失。通過這個訓練過程,視覺塔學習提取適用于我們視覺語言模型中理解和生成任務的離散特征。
圖2:我們統一基礎視覺塔概述:給定輸入圖像,視覺編碼器提取的特征通過殘差量化進行離散化。然后,離散的視覺特征同時輸入到視覺解碼器中以重建圖像,并用于執行文本 - 圖像對齊。在此過程中,計算重建損失和對比損失以更新視覺塔,使其能夠生成與文本對齊的離散視覺特征。
統一訓練方法
從頭開始使用兩個目標訓練統一視覺塔是困難的,因為對齊和重建任務分別需要高級語義特征和低級外觀特征。同時使用這兩個目標從頭開始訓練整個視覺塔可能會導致目標沖突。在實踐中,我們觀察到,使用圖像重建和對比損失從頭開始訓練向量量化的視覺塔,在經過幾個訓練周期后,在 ImageNet(Deng 等人,2009a)上的零樣本圖像分類的 Top-1 準確率僅為 5%。
為了解決這個問題,我們嘗試了不同的訓練方法(失敗的方法列在附錄 C 中),并發現以下解決方案最為有效。我們建議不要同時學習兩個目標,而是首先賦予模型文本 - 圖像對齊能力,然后在保持對齊能力的同時學習重建能力。我們使用來自 CLIP 模型的預訓練權重初始化視覺編碼器和文本編碼器,以確保良好的文本 - 圖像對齊。接下來,我們凍結文本編碼器,并使所有視覺組件在對比損失和重建損失下保持可訓練狀態。對比損失保持對齊能力,而重建損失培養重建能力。這種方法收斂迅速,并產生強大的性能。預訓練的 CLIP 權重包含已學習的高級先驗知識,從頭開始學習這些知識既困難又計算成本高昂。使用這些權重進行初始化,使視覺編碼器能夠更快、更易于處理地結合低級和高級特征。通過這種方法,我們可以訓練出一個既具有良好文本對齊能力又具有圖像重建能力的視覺塔。我們使用加權和來組合文本 - 圖像對比損失和基于 VQ 的圖像重建損失:
L_{total} = w_{contra}L_{contra} + w_{recon}L_{recon} (1)
在我們的實驗中,我們選擇w_{contra}=1和w_{recon}=1。
殘差向量量化
我們的視覺特征被離散量化,因此它們的表示能力在很大程度上取決于我們在量化器中使用的碼本大小。由于我們希望它們同時包含高級和低級特征,我們需要在其向量特征空間中擁有更多的容量,這使得更大的碼本大小對于下游任務的良好性能是必要的。然而,每個圖像的碼本數量過多會導致在視覺生成過程中,大語言模型需要生成的標記過多,從而產生大量延遲。因此,為了在增加向量特征容量的同時,為大語言模型保持合理數量的標記,我們采用了一種基于 RQ-VAE(Lee 等人,2022)的殘差向量量化方法,將向量z離散化為D個離散碼:
\mathcal{R} \mathcal{Q}(z ; \mathcal{C}, D)=\left(k_{1}, \cdots, k_{D}\right) \in[K]^{D}
(2)
其中\mathcal{C}是碼本,K = |\mathcal{C}|,k_owocgsc是z在深度d處的碼。從r_{0}=z開始,我們通過以下方式遞歸地執行向量量化:
\begin{aligned} k_owocgsc & =\mathcal{Q}\left(r_{d-1}, \mathcal{C}\right), \\ r_owocgsc & =r_{d-1}-e\left(k_owocgsc\right), \end{aligned}
對于每個深度d = 1,2,\cdots,D,其中e是碼本嵌入表,\mathcal{Q}是標準向量量化:
\mathcal{Q}(z ; \mathcal{C})=\underset{k \in[K]}{arg min }\| z-e(k)\| _{2}^{2}
(4)
z的量化向量是在深度維度上的求和:\widehat{z}=\sum_{i=1}^{D} e(k_{i})。直觀地說,在每個深度我們選擇一個碼來減少量化誤差。因此,與標準向量量化方法相比,我們有D個碼來量化一個向量,允許更精細的逼近和更大的特征空間。在多模態訓練和推理過程中,大語言模型只需要預測碼本嵌入,不同深度的碼由一個深度變壓器依次生成,該變壓器以碼本嵌入作為初始輸入,如我們將在 3.2 節中介紹的。因此,通過這種殘差量化,我們可以在幾乎不增加延遲的情況下增強視覺塔的表示能力。
3.2 統一多模態生成預訓練
圖 1 展示了我們統一多模態預訓練過程的概述。我們的視覺塔編碼器按順序處理視覺輸入,生成一維標記序列。然后,這個序列與文本標記連接,形成一個多模態序列。為了區分不同模態并實現視覺內容生成,我們插入特殊標記:在圖像標記的開頭和結尾分別插入和 < image_end>,在視頻標記的開頭和結尾分別插入 < video_start > 和 < video_end>。視頻標記是多幀圖像標記的直接連接。
預訓練數據形式
在統一預訓練數據方面,我們利用文本和視覺標記之間的不同連接形式來促進理解和生成。我們使用 [圖像,文本]、[文本,圖像] 和 [文本,視頻] 的形式,僅在每對中的后一個模態上添加監督損失,以避免無條件的內容生成并促進模態對齊。我們還采用交錯的文本和圖像連接形式來增強理解,僅在文本上應用監督損失。值得注意的是,出于效率原因,我們在預訓練期間排除了 [視頻,文本] 的形式,因為我們發現在有監督的微調期間納入它可以有效地產生出色的視頻理解能力。
訓練目標
由于視覺標記和文本標記都是離散的,我們可以使用通用的語言建模下一個標記預測目標來訓練我們的大語言模型。然而,由于對視覺標記使用了殘差量化,文本和視覺標記的訓練目標略有不同。對于文本標記,負對數似然損失計算為:
\mathcal{L}_{text }=-\sum_{i=1}^{T} log P_{\theta}\left(y_{i} | y_{ <i}\right)< span> </i}\right)<>
圖片
其中T是多模態序列的長度,i僅在文本標記出現在位置i時計數。對于視覺標記,殘差量化在每個視覺位置j引入了代碼的深度堆疊結構。為了解決這個問題,我們利用了 RQ-VAE(Lee 等人,2022)中引入的深度變壓器。具體來說,給定大語言模型為視覺位置j的視覺標記生成的代碼嵌入h_{j},深度變壓器自回歸地預測D個殘差標記((k_{j1}, ..., k_{jD}))。在訓練過程中,深度變壓器在深度d的輸入v_{jd}定義為直到深度d - 1的代碼嵌入之和,即當d>1時:
v_{j d}=\sum_{d'=1}^{d-1} e\left(k_{j d'}\right)
并且v_{j1}=h_{j}。因此,深度變壓器基于之前直到d - 1的估計來預測下一個代碼,以更精細地估計特征\hat{z}_{j}。然后,視覺標記的負對數似然損失為:
\mathcal{L}_{visual }=-\sum_{j=1}^{T} \sum_{d=1}^{D} log P_{\delta}\left(k_{j d} | k_{j, <d}\right)< span> </d}\right)<>
其中T是多模態序列的長度,j僅在視覺標記出現在位置j時計數。在多模態預訓練期間,深度變壓器的權重被隨機初始化,并與大語言模型一起更新。
4、實驗
在本節中,我們介紹了全面的實驗,以評估我們的方法在各種視覺理解和生成任務上的性能。首先,我們概述了實驗設置,包括模型架構、訓練數據集和評估基準。隨后,我們評估了統一基礎視覺塔的性能。然后,我們將我們的方法與其他流行的視覺語言模型在各種視覺理解和生成基準上進行比較。最后,我們給出了一些定性結果。
4.1 實驗設置
在我們的實驗中,我們采用 LLaMA-2-7B(Touvron 等人,2023b)作為基礎語言模型。對于視覺塔,我們選擇 SigLIP-Large-patch16-256 / SigLIP-SO400M-patch14-384(Zhai 等人,2023)作為視覺編碼器架構,并采用 RQ-VAE(Lee 等人,2022)中的殘差量化器、深度變換器以及解碼器架構。量化器碼本大小為 16384。所有圖像和視頻都被調整為 256×256 / 384×384 的分辨率,每個圖像或視頻幀通過深度為 D = 4 / D = 16 的殘差量化轉換為 16×16×4 / 27×27×16 的代碼。我們在 COYO-700M(Byeon 等人,2022)上訓練視覺塔,并在 ImageNet(Deng 等人,2009b)上評估其零樣本分類和重建性能。對于視覺理解,我們利用來自 ShareGPT4V(Chen 等人,2023)的 100 萬對 [圖像,文本] 數據,以及來自 MMC4(Zhu 等人,2024)的 600 萬對交錯文本和圖像數據。對于視覺生成,我們納入了從我們內部數據集精心挑選的 1500 萬對高質量 [文本,圖像] 數據,以及來自 OpenVid(Nan 等人,2024)數據集的 100 萬對 [文本,視頻] 數據。在視覺生成中采用無分類器引導(Ho & Salimans,2022),CFG 值設為 3。
為檢驗視覺理解能力,我們在廣泛使用的基于零樣本圖像的視覺語言基準測試上評估模型,這些基準包括 VQAv2(Goyal 等人,2017)、GQA(Hudson & Manning,2019)、TextVQA(Singh 等人,2019)、POPE(Li 等人,2023d)、MME(Fu 等人,2024)、SEED(Li 等人,2023a)、MM-Vet(Yu 等人,2023b);以及基于視頻的視覺語言基準測試,如 ActivityNet(Caba Heilbron 等人,2015)、MSVD(Chen & Dolan,2011)、MSRVTT(Xu 等人,2017)、TGIF(Li 等人,2016)。
為評估視覺生成能力,我們使用 MJHQ-30K(Li 等人,2024)和 GenAI-Bench(Lin 等人,2024)進行圖像生成評估,使用 VBench(Huang 等人,2024)進行視頻生成評估。MJHQ-30K 通過生成圖像與 3 萬張高質量圖像之間的 FID 分數來反映圖像生成的整體能力。GenAI-Bench 是一個具有挑戰性的圖像到文本生成基準,用于反映圖像生成模型的綜合生成能力。Vbench 是一個全面的視頻生成模型基準套件,它將生成質量分解為多個明確的維度,以便進行細粒度和客觀的評估。
4.2 統一基礎視覺塔
我們在表 1 中展示了常用的指標 —— 重建 FID(rFID)和在 ImageNet 上零樣本圖像分類的 Top-1 準確率,以此來衡量統一基礎視覺塔的重建能力和文本對齊能力。定性的重建結果請參考附錄 B.1。我們的模型比 VQ-GAN 取得了顯著更好的重建結果。在使用相同代碼形狀的情況下,我們的 rFID 略遜于 RQ-VAE。這是意料之中的,因為在訓練過程中引入對比損失旨在增強圖像理解,這導致了重建質量的下降。對于文本對齊能力,我們的統一視覺塔在 256 / 384 分辨率下實現了 73.3 / 78.0 的 Top-1 準確率。這證明了我們統一視覺塔卓越的文本對齊能力。然而,值得注意的是,視覺塔的 rFID 和 Top-1 準確率都只是一個中間指標。由于統一視覺塔是整個自回歸模型的一個組成部分,我們認為它在下游任務(如視覺理解和生成)中的表現更具意義。
表1:我們統一視覺塔在ImageNet上的重建FID(rFID)和零樣本圖像分類的Top-1準確率
- 模型:列出不同模型,如VQ - GAN、RQ - VAE、本文提出的模型(Ours)。
- 預訓練權重:各模型使用的預訓練權重情況。
- 分辨率:模型處理圖像時的分辨率,如256×256、384×384。
- 代碼形狀:視覺特征量化后的代碼形狀,如16×16、8×8×4、16×16×4、27×27×16。
- rFID:反映模型重建圖像質量的指標。
- Top-1準確率:衡量模型在零樣本圖像分類任務中的性能指標。
4.3 定量評估
視覺理解任務
表 2 和表 3 分別總結了我們的方法與其他領先的視覺語言模型在圖像 - 語言和視頻 - 語言基準測試上的比較結果。與像 CLIP 這樣的基礎模型生成的連續視覺標記這一主流選擇相比,基于 VQGAN 的離散視覺標記與文本的對齊性較差,從而損害了視覺語言模型在視覺理解任務上的性能。借助我們的統一基礎視覺塔,即使使用離散視覺標記,我們的模型也能達到接近領先視覺語言模型的性能。
表2:與領先方法在基于圖像的視覺語言基準測試上的比較。即使使用離散視覺標記類型,在相同的大語言模型(LLM)規模下,我們的性能接近領先的視覺語言模型(VLMs),并在很大程度上超越了許多方法。表示在視覺語言模型訓練期間觀察到了這些數據集中訓練分割的圖像:對比了不同方法在VQAv2、GQA、TextVQA、POPE、MME、SEED、MM - Vet等基于圖像的視覺語言基準測試中的性能,涉及的方法包括LLaVA - 1.5、VILA、Unified - IO 2等,展示了不同方法使用的大語言模型、視覺標記類型、分辨率以及在各基準測試中的得分情況。
表3:與領先方法在基于視頻的視覺語言基準測試上的比較。即使使用離散視覺標記類型,在相同的大語言模型(LLM)規模下,我們的方法性能接近最先進的視覺語言模型(VLMs),超越了許多方法:呈現了不同方法在MSVD - QA、MSRVTT - QA、TGIF - QA、Activity Net - QA等基于視頻的視覺語言基準測試中的結果,對比了如Unified - IO 2、Emu、Video - LLaMA等方法使用的大語言模型、視覺標記類型、分辨率以及在各基準測試中的得分情況。
視覺生成任務
如表 4 所示,VILA-U 在 FID 指標上優于其他自回歸方法,并且與一些基于擴散模型的方法性能相當。這一結果表明了我們的方法在視覺生成方面的可行性。表 5 總結了我們的方法與其他視覺生成方法在 GenAI-Bench 上的定量結果。盡管我們的方法不如那些在數十億級圖像 - 文本對上進行訓練的基于擴散模型的視覺生成方法,但在高級提示下,即使訓練數據量少了幾個數量級,我們的方法與 SD v2.1(Rombach 等人,2022b)和 SD-XL(Podell 等人,2023)的性能差距也相對較小。這進一步表明,VILA-U 能夠通過我們的統一訓練框架有效地學習視覺和文本模態之間的相關性。對于視頻生成,我們在 VBench(Huang 等人,2024)上評估我們的方法,并與 Open-Sora(Zheng 等人)、CogVideo(Hong 等人,2022)和 CogVideoX(Yang 等人,2024)進行比較。表 6 中的結果表明,我們的方法性能優于 CogVideo,與 Open-Sora 相當,突出了我們方法的有效性。
表4:與其他視覺生成方法在MJHQ - 30K評估基準上的比較:比較了不同視覺生成方法在MJHQ - 30K評估基準上的表現,列出了方法類型(如Diffusion、Autoregressive)、訓練圖像數量(部分未列出)以及FID指標得分,涉及的方法有SD v2.1、SD - XL、PixArt、Playground v2.5、LWM、Show - o、本文提出的模型(Ours)等。
表5:與其他視覺生成方法在GenAI - Bench上的比較。結果表明,我們的方法優于以前的自回歸視覺生成方法。對于需要更好的文本跟隨能力才能生成的高級提示,即使訓練數據少得多,我們的方法與基于擴散的方法之間的性能差距也相對較小:展示了不同視覺生成方法在GenAI - Bench圖像生成基準上的定量結果,對比了如SD v2.1、SD - XL、Midjourney v6、DALL - E 3、LWM、Show - o、本文提出的模型(Ours)等方法在屬性、場景、關系、空間、動作、部分、總體等方面的得分情況。
表6:與其他視覺生成方法在VBench(Huang等人,2024)上的比較:呈現了不同視覺生成方法在VBench視頻生成基準上的性能對比,列出了方法(如Open - Sora、CogVideo、CogVideoX、本文提出的模型(Ours))以及對應的總分數、質量分數、語義分數。
4.4 定性評估
視覺理解
為了驗證 VILA-U 在綜合視覺理解任務中的有效性,我們將其應用于多個理解和推理任務,圖 3 和圖 4 展示了一些示例。從結果中可以看出,VILA-U 在包括視覺描述和視覺問答在內的各種任務中具有通用性。此外,我們的模型繼承了 VILA(Lin 等人,2023)的一些重要能力,如多圖像理解、上下文學習,如圖 5 和圖 6 所示。更多可視化結果可在附錄 B.2 和 B.3 中找到。
圖3:VILA-U能正確描述視頻并涵蓋所有細節,這得益于我們視覺編碼器的文本對齊功能:提示:<視頻>\n詳細闡述視頻中的視覺和敘事元素。VILA-U(我們的模型):視頻中一個人穿著藍色T恤、卡其褲和帽子,在混凝土路上進行一系列霹靂舞動作。背景中有晴朗的天空、一座橋和一列駛過的火車。舞者的動作很有活力,有旋轉、翻轉和倒立。光線明亮,表明是白天,陰影顯示太陽位置較高。舞者的著裝很休閑,場景似乎是一條安靜、車輛稀少的道路。
圖4:VILA-U具有良好的視覺問答能力。圖像和問題來自VQAv2數據集的測試集
- 輸入圖像:展示了不同場景的圖片。
- 問題:如“能看到水嗎?”“天空中有什么在飛?”“圖片中有多少輛摩托車?”等。
- 輸出:對應問題的正確回答,如“是”“風箏”“2”等。
圖5:VILA-U具有良好的上下文學習能力。我們將兩個圖像 - 文本對和第三張圖像作為上下文輸入,以提示視覺語言模型
- 輸入少量示例 + 目標圖像:展示了不同的圖像 - 文本對,如“是駱駝的棲息地”對應沙漠場景圖像,“是北極熊的棲息地”對應雪地場景圖像等,以及一張目標圖像。
- 輸出:根據輸入的上下文和目標圖像進行的合理回答。
圖6:VILA-U可以正確地對多幅圖像進行推理
- 提示:如“Image 1:\nImage 2:\n兩張圖片的共同點和不同點是什么?”
- VILA-U(我們的模型)輸出:以兩張包含熊貓的圖片為例,回答“兩張圖片的共同點是都有一只熊貓。不同點是圖片1中的熊貓躺在巖石上,而圖片2中的熊貓躺在木頭上”;以兩張包含樹木的圖片為例,回答“兩張圖片的共同點是都有樹,但兩張圖片的不同之處在于陽光的角度。在圖片1中,陽光透過樹木照耀,營造出明亮活潑的氛圍。相比之下,圖片2中看不到太陽,呈現出更黑暗、更柔和的森林場景”。
視覺生成
我們在圖 7 中展示了一些視覺生成結果的示例。即使在相對較小的數據集上進行訓練,我們的模型也能夠應用于圖像生成和視頻生成。在給定的示例中,我們的方法能夠根據用戶輸入生成美觀的圖像和連貫的視頻。更多可視化結果可在附錄 B.4 中找到。
圖7:VILA-U可以根據文本輸入生成高質量的圖像和視頻:展示了一系列文本提示及其對應的生成圖像示例,如“快樂的夢幻貓頭鷹怪物坐在樹枝上,周圍有彩色閃爍的粒子,森林背景,羽毛細節豐富”“一只可愛的橙色小貓從藍色滑梯上滑下,開心又興奮。色彩鮮艷,水濺到鏡頭上”等文本對應的生成圖像。
5、消融研究
5.1 對比損失對視覺理解的影響
我們在視覺塔訓練中納入對比損失,賦予其文本對齊能力。在多模態訓練過程中,這種文本對齊能力對于增強模態融合以及在下游視覺語言任務中的性能至關重要。我們通過分別在有和沒有對比損失的情況下訓練視覺塔,來驗證這種對齊的重要性,并評估其對視覺語言理解性能的影響。在這個消融實驗中,我們從 COYO-700M 中隨機抽取 2500 萬數據來訓練視覺塔。對于多模態訓練,我們使用 ShareGPT4V 和 MMC4,但不包含文本 - 圖像和文本 - 視頻數據。表 7 前兩行的結果展示了文本對齊在實現強大的視覺語言理解性能中的關鍵作用。將數據集規模從 2500 萬擴展到 7 億進一步提升了性能,這突出了在大規模數據集上學習文本對齊的重要性。
表7:對比損失對視覺理解的影響:展示了在不同預訓練權重、數據規模和損失類型下,模型在視覺語言理解任務中的性能表現,包括Top - 1準確率以及在VQAv2、POPE、MME、SEED、MM - Vet等基準測試中的得分情況,以驗證對比損失對視覺理解性能的影響。
5.2 對比損失對視覺生成的影響
我們進行了兩個實驗來展示對比損失對生成性能的影響。為提高效率,我們僅進行文本到圖像的預訓練,并使用 Sheared-LLaMA-1.3B(Xia 等人,2023)代替 LLaMA-2-7B 作為大語言模型。在第一個實驗中,我們使用 RQ-VAE 作為視覺塔,其 rFID 為 1.30。在第二個實驗中,我們采用我們的統一視覺塔。結果如表 8 所示。在 MJHQ-30K 上,我們的統一視覺塔產生的 FID 結果略遜于 RQ-VAE,這可能是由于對比損失導致其 rFID 較差。
表8:對比損失對視覺生成的影響:對比了使用不同視覺塔(RQ - VAE和本文提出的統一視覺塔)和大語言模型(Sheared - LLaMA - 1.3B)時,在256×256分辨率下的rFID和FID指標,以探究對比損失對視覺生成性能的影響。
5.3 無分類器引導的影響
我們在視覺內容生成過程中采用無分類器引導。我們研究了 CFG 值對我們 256 分辨率模型的影響。表 9 中的結果表明,CFG 值為 3.0 時可獲得最佳 FID 分數。
表9:無分類器引導(CFG)的影響:展示了不同CFG值(1.0、2.0、3.0、5.0)對模型在視覺生成任務中FID指標得分的影響。
6、結論與局限
我們提出了 VILA-U,這是一種新穎的統一視覺語言模型,它將視頻、圖像和語言的理解與生成任務集成到一個自回歸下一個標記預測框架中。我們的方法比大多數為統一視覺生成和理解而利用擴散模型等額外組件的視覺語言模型更加簡潔,并且證明了自回歸方法可以達到與當前最先進的視覺語言模型相媲美的性能。我們相信 VILA-U 可以作為多種視覺語言任務的通用框架。
如 5.2 節所示,對比損失的引入影響了視覺塔的重建能力。在統一視覺塔中平衡這兩種能力是一個有趣且復雜的挑戰,需要進一步探索。此外,我們目前尚未觀察到理解和生成任務之間存在顯著的協同作用或相互增強效果。未來,我們旨在研究和探索更有效的方法,使這些任務能夠相互補充和強化,從而充分實現統一視覺語言模型尚未開發的潛力。
?
本文轉載自??AIRoobt?? ,作者:Yecheng Wu等
