通向高分辨率VLM (11): VILA-HD 原創(chuàng)
4k分辨率的視覺預(yù)訓(xùn)練:PS3
Paper: ??https://arxiv.org/abs/2503.19903??
Demo: ??https://huggingface.co/spaces/bfshi/VILA-HD-demo??
在之前介紹的高分辨率VLM系列中,我們見證了視覺語(yǔ)言模型,視覺編碼器逐漸從224/384的固定低分辨率,通過動(dòng)態(tài)切圖/原生動(dòng)態(tài)分辨率方法,逐漸走向了動(dòng)態(tài)的高分辨率圖像輸入。
想必對(duì)于讀過該系列的讀者,高分辨率在視覺領(lǐng)域的的重要性不用多說。英偉達(dá)團(tuán)隊(duì)將視覺預(yù)訓(xùn)練擴(kuò)展到了4k分辨率,提出了方法PS3,并基于此構(gòu)建了一個(gè)名為VILA-HD的高分辨率多模態(tài)大模型。相比于動(dòng)態(tài)分辨率,其擁有更少的計(jì)算復(fù)雜度,規(guī)避了動(dòng)態(tài)分辨率的transformer方法N方的推理計(jì)算復(fù)雜度,對(duì)高分辨率下的推理速度帶來了巨大的提升。
作者以自動(dòng)駕駛和為案例講述了高分辨率預(yù)訓(xùn)練的重要性:
盡管一些方法可以在沒有高分辨率預(yù)訓(xùn)練的情況下處理高分辨率圖像,但作者發(fā)現(xiàn),高分辨率預(yù)訓(xùn)練能夠利用大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)高質(zhì)量的高分辨率特征,從而提升性能。PS3 在 4K 分辨率上預(yù)訓(xùn)練后,明顯優(yōu)于 S2 和 AnyRes 等基線模型。
以往的視覺預(yù)訓(xùn)練方法(如 CLIP 和 SigLIP)無法擴(kuò)展到高分辨率,因?yàn)橛?jì)算成本過高。視覺模型需要對(duì)整張圖像進(jìn)行編碼,計(jì)算復(fù)雜度至少是二次的。然而,對(duì)于高分辨率圖像,通常不需要查看整張圖像。例如,在上述例子中,只需要關(guān)注停車標(biāo)志即可回答問題。這意味著,與其對(duì)整張圖像進(jìn)行對(duì)比學(xué)習(xí),不如在局部區(qū)域和局部描述之間進(jìn)行對(duì)比學(xué)習(xí)。這樣,模型仍然可以學(xué)習(xí)高分辨率圖像的詳細(xì)表示,而幾乎不需要額外成本。
PS3 的成功關(guān)鍵在于能夠根據(jù)任何文本提示選擇性地處理高分辨率區(qū)域。這是通過一種自上而下(即提示感知)的選擇機(jī)制實(shí)現(xiàn)的,該機(jī)制允許模型專注于任何給定文本提示最相關(guān)的區(qū)域,并對(duì)低分辨率全局圖像和高分辨率局部區(qū)域分別進(jìn)行編碼。通過用戶的query去選擇相關(guān)區(qū)域,能顯著減少無用的細(xì)節(jié)信息提取。
PS3的預(yù)訓(xùn)練方法
數(shù)據(jù)準(zhǔn)備
- 高分辨率圖像數(shù)據(jù):收集了7500萬張1K到4K分辨率的圖像,包括自然圖像和文檔圖像。
- 局部描述和邊界框:為每張圖像生成了2.82億對(duì)局部區(qū)域的邊界框和詳細(xì)描述。這些描述由MLLM(如Qwen2-VL)生成,確保模型能夠?qū)W習(xí)到高分辨率圖像中的細(xì)節(jié)特征。
模型設(shè)計(jì)
PS3的模型設(shè)計(jì)分為三個(gè)階段:
- 低分辨率全局特征提取(Low-Res Feature Extraction):使用與SigLIP相同的ViT架構(gòu)提取低分辨率全局特征。
- 自上而下或自下而上的局部區(qū)域選擇(Top-Down or Bottom-Up Patch Selection):模型根據(jù)低分辨率特征和文本提示(或圖像顯著性)計(jì)算每個(gè)空間位置的選擇分?jǐn)?shù),并選擇重要的局部區(qū)域。
- 高分辨率多尺度特征提取(High-Res Multi-Scale Feature Extraction):對(duì)選定的局部區(qū)域進(jìn)行高分辨率特征提取,并通過低分辨率KV緩存將全局上下文信息融入局部特征中。
預(yù)訓(xùn)練算法
PS3的預(yù)訓(xùn)練算法包括以下關(guān)鍵設(shè)計(jì):
- 局部對(duì)比損失(Localized Contrastive Loss):通過對(duì)比局部高分辨率特征和局部描述的文本嵌入來學(xué)習(xí)詳細(xì)的視覺表示。
- 邊界框監(jiān)督(Box Supervision):使用標(biāo)注的邊界框監(jiān)督模型選擇與局部描述相關(guān)的圖像區(qū)域,從而提高選擇的準(zhǔn)確性。
Building VILA-HD with PS3
作者使用PS3作為視覺編碼器,構(gòu)建了高分辨率MLLM,VILA-HD,可以有效地處理高達(dá)4K的分辨率輸入。VILA-HD通過首先從PS3和文本query中獲取低分辨率特征,然后使用PS3選擇性地處理與文本提示相關(guān)的高分辨率區(qū)域,有效地處理高分辨率圖像。可以根據(jù)計(jì)算預(yù)算靈活地決定在VILA-HD中處理多少個(gè)高分辨率patch。
VILA-HD 與 PS3 展現(xiàn)出出色的擴(kuò)展特性:
- 當(dāng)分辨率提升且選擇每個(gè)分辨率的所有塊時(shí),VILA-HD 與 PS3 的擴(kuò)展曲線優(yōu)于沒有高分辨率預(yù)訓(xùn)練的基線模型。
- VILA-HD 與 PS3 可以在不增加額外訓(xùn)練和推理成本的情況下,通過選擇固定數(shù)量的塊來提升分辨率并提高性能。
- VILA-HD 與 PS3 可以通過選擇更多塊來權(quán)衡更好的性能,從而擴(kuò)展訓(xùn)練或測(cè)試時(shí)的計(jì)算量。
與 NVILA 和 Qwen2-VL 等頂尖多模態(tài)語(yǔ)言模型相比,VILA-HD 在包括圖表、文檔、OCR 和自然圖像理解的所有基準(zhǔn)測(cè)試中表現(xiàn)出色,并在需要高分辨率感知的基準(zhǔn)測(cè)試(如 V*bench)上創(chuàng)下新紀(jì)錄。VILA-HD 還實(shí)現(xiàn)了最佳效率,這得益于 PS3 的自上而下的塊選擇機(jī)制。具體來說,在選擇相同數(shù)量的標(biāo)記時(shí),PS3 顯著提高了 ViT 的效率,同時(shí)實(shí)現(xiàn)了更好的性能。PS3 也是唯一能夠處理 4K 分辨率的方法。
4KPro:4K 分辨率感知Benchmark
- 以往基準(zhǔn)測(cè)試不需要 4K 分辨率感知:盡管以往的圖像問答基準(zhǔn)測(cè)試包含高達(dá) 4K 分辨率的圖像,但這些問題并不真正需要 4K 分辨率感知來回答。我們手動(dòng)檢查了每個(gè)問題的最低可識(shí)別分辨率(MRR),即回答問題所需的最低分辨率,發(fā)現(xiàn)大多數(shù)問題只需要不超過 1K 分辨率即可回答。
- 4KPro 嚴(yán)格要求 4K 分辨率感知:為此,我們提出了 4KPro,這是一個(gè)嚴(yán)格要求 4K 分辨率感知的新基準(zhǔn)測(cè)試。4KPro 包括自動(dòng)駕駛、家居、游戲和 GUI 理解四個(gè)專業(yè)領(lǐng)域的 4K 分辨率問答任務(wù)。
- VILA-HD 在 4KPro 上實(shí)現(xiàn)頂尖性能和效率:VILA-HD 與 PS3 的擴(kuò)展曲線優(yōu)于沒有高分辨率預(yù)訓(xùn)練的基線模型。VILA-HD 還實(shí)現(xiàn)了比 Qwen2-VL 等以往多模態(tài)語(yǔ)言模型更好的性能和效率
本文轉(zhuǎn)載自公眾號(hào)思源數(shù)據(jù)科學(xué) 作者:思源Source
