通向高分辨率VLM (11): VILA-HD 原創(chuàng)

發(fā)布于 2025-5-8 06:39

瀏覽

0收藏

4k分辨率的視覺預(yù)訓(xùn)練：PS3

Paper: ??https://arxiv.org/abs/2503.19903??

Demo: ??https://huggingface.co/spaces/bfshi/VILA-HD-demo??

在之前介紹的高分辨率VLM系列中，我們見證了視覺語(yǔ)言模型，視覺編碼器逐漸從224/384的固定低分辨率，通過動(dòng)態(tài)切圖/原生動(dòng)態(tài)分辨率方法，逐漸走向了動(dòng)態(tài)的高分辨率圖像輸入。

想必對(duì)于讀過該系列的讀者，高分辨率在視覺領(lǐng)域的的重要性不用多說。英偉達(dá)團(tuán)隊(duì)將視覺預(yù)訓(xùn)練擴(kuò)展到了4k分辨率，提出了方法PS3，并基于此構(gòu)建了一個(gè)名為VILA-HD的高分辨率多模態(tài)大模型。相比于動(dòng)態(tài)分辨率，其擁有更少的計(jì)算復(fù)雜度，規(guī)避了動(dòng)態(tài)分辨率的transformer方法N方的推理計(jì)算復(fù)雜度，對(duì)高分辨率下的推理速度帶來了巨大的提升。

作者以自動(dòng)駕駛和為案例講述了高分辨率預(yù)訓(xùn)練的重要性：

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

盡管一些方法可以在沒有高分辨率預(yù)訓(xùn)練的情況下處理高分辨率圖像，但作者發(fā)現(xiàn)，高分辨率預(yù)訓(xùn)練能夠利用大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)高質(zhì)量的高分辨率特征，從而提升性能。PS3 在 4K 分辨率上預(yù)訓(xùn)練后，明顯優(yōu)于 S2 和 AnyRes 等基線模型。

以往的視覺預(yù)訓(xùn)練方法（如 CLIP 和 SigLIP）無法擴(kuò)展到高分辨率，因?yàn)橛?jì)算成本過高。視覺模型需要對(duì)整張圖像進(jìn)行編碼，計(jì)算復(fù)雜度至少是二次的。然而，對(duì)于高分辨率圖像，通常不需要查看整張圖像。例如，在上述例子中，只需要關(guān)注停車標(biāo)志即可回答問題。這意味著，與其對(duì)整張圖像進(jìn)行對(duì)比學(xué)習(xí)，不如在局部區(qū)域和局部描述之間進(jìn)行對(duì)比學(xué)習(xí)。這樣，模型仍然可以學(xué)習(xí)高分辨率圖像的詳細(xì)表示，而幾乎不需要額外成本。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

PS3 的成功關(guān)鍵在于能夠根據(jù)任何文本提示選擇性地處理高分辨率區(qū)域。這是通過一種自上而下（即提示感知）的選擇機(jī)制實(shí)現(xiàn)的，該機(jī)制允許模型專注于任何給定文本提示最相關(guān)的區(qū)域，并對(duì)低分辨率全局圖像和高分辨率局部區(qū)域分別進(jìn)行編碼。通過用戶的query去選擇相關(guān)區(qū)域，能顯著減少無用的細(xì)節(jié)信息提取。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

PS3的預(yù)訓(xùn)練方法

數(shù)據(jù)準(zhǔn)備

高分辨率圖像數(shù)據(jù)：收集了7500萬張1K到4K分辨率的圖像，包括自然圖像和文檔圖像。
局部描述和邊界框：為每張圖像生成了2.82億對(duì)局部區(qū)域的邊界框和詳細(xì)描述。這些描述由MLLM（如Qwen2-VL）生成，確保模型能夠?qū)W習(xí)到高分辨率圖像中的細(xì)節(jié)特征。

模型設(shè)計(jì)

PS3的模型設(shè)計(jì)分為三個(gè)階段：

低分辨率全局特征提取（Low-Res Feature Extraction）：使用與SigLIP相同的ViT架構(gòu)提取低分辨率全局特征。
自上而下或自下而上的局部區(qū)域選擇（Top-Down or Bottom-Up Patch Selection）：模型根據(jù)低分辨率特征和文本提示（或圖像顯著性）計(jì)算每個(gè)空間位置的選擇分?jǐn)?shù)，并選擇重要的局部區(qū)域。
高分辨率多尺度特征提取（High-Res Multi-Scale Feature Extraction）：對(duì)選定的局部區(qū)域進(jìn)行高分辨率特征提取，并通過低分辨率KV緩存將全局上下文信息融入局部特征中。

預(yù)訓(xùn)練算法

PS3的預(yù)訓(xùn)練算法包括以下關(guān)鍵設(shè)計(jì)：

局部對(duì)比損失（Localized Contrastive Loss）：通過對(duì)比局部高分辨率特征和局部描述的文本嵌入來學(xué)習(xí)詳細(xì)的視覺表示。
邊界框監(jiān)督（Box Supervision）：使用標(biāo)注的邊界框監(jiān)督模型選擇與局部描述相關(guān)的圖像區(qū)域，從而提高選擇的準(zhǔn)確性。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

Building VILA-HD with PS3

作者使用PS3作為視覺編碼器，構(gòu)建了高分辨率MLLM，VILA-HD，可以有效地處理高達(dá)4K的分辨率輸入。VILA-HD通過首先從PS3和文本query中獲取低分辨率特征，然后使用PS3選擇性地處理與文本提示相關(guān)的高分辨率區(qū)域，有效地處理高分辨率圖像。可以根據(jù)計(jì)算預(yù)算靈活地決定在VILA-HD中處理多少個(gè)高分辨率patch。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

VILA-HD 與 PS3 展現(xiàn)出出色的擴(kuò)展特性：

當(dāng)分辨率提升且選擇每個(gè)分辨率的所有塊時(shí)，VILA-HD 與 PS3 的擴(kuò)展曲線優(yōu)于沒有高分辨率預(yù)訓(xùn)練的基線模型。
VILA-HD 與 PS3 可以在不增加額外訓(xùn)練和推理成本的情況下，通過選擇固定數(shù)量的塊來提升分辨率并提高性能。
VILA-HD 與 PS3 可以通過選擇更多塊來權(quán)衡更好的性能，從而擴(kuò)展訓(xùn)練或測(cè)試時(shí)的計(jì)算量。

與 NVILA 和 Qwen2-VL 等頂尖多模態(tài)語(yǔ)言模型相比，VILA-HD 在包括圖表、文檔、OCR 和自然圖像理解的所有基準(zhǔn)測(cè)試中表現(xiàn)出色，并在需要高分辨率感知的基準(zhǔn)測(cè)試（如 V*bench）上創(chuàng)下新紀(jì)錄。VILA-HD 還實(shí)現(xiàn)了最佳效率，這得益于 PS3 的自上而下的塊選擇機(jī)制。具體來說，在選擇相同數(shù)量的標(biāo)記時(shí)，PS3 顯著提高了 ViT 的效率，同時(shí)實(shí)現(xiàn)了更好的性能。PS3 也是唯一能夠處理 4K 分辨率的方法。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

4KPro：4K 分辨率感知Benchmark

以往基準(zhǔn)測(cè)試不需要 4K 分辨率感知：盡管以往的圖像問答基準(zhǔn)測(cè)試包含高達(dá) 4K 分辨率的圖像，但這些問題并不真正需要 4K 分辨率感知來回答。我們手動(dòng)檢查了每個(gè)問題的最低可識(shí)別分辨率（MRR），即回答問題所需的最低分辨率，發(fā)現(xiàn)大多數(shù)問題只需要不超過 1K 分辨率即可回答。
4KPro 嚴(yán)格要求 4K 分辨率感知：為此，我們提出了 4KPro，這是一個(gè)嚴(yán)格要求 4K 分辨率感知的新基準(zhǔn)測(cè)試。4KPro 包括自動(dòng)駕駛、家居、游戲和 GUI 理解四個(gè)專業(yè)領(lǐng)域的 4K 分辨率問答任務(wù)。
VILA-HD 在 4KPro 上實(shí)現(xiàn)頂尖性能和效率：VILA-HD 與 PS3 的擴(kuò)展曲線優(yōu)于沒有高分辨率預(yù)訓(xùn)練的基線模型。VILA-HD 還實(shí)現(xiàn)了比 Qwen2-VL 等以往多模態(tài)語(yǔ)言模型更好的性能和效率