4K分辨率視覺預訓練首次實現!伯克利&英偉達多模態新SOTA,更準且3倍加速處理
當前,所有主流的視覺基礎模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下進行預訓練。對比人類視覺系統可以輕松達到 10K 等效分辨率,這種低分辨率預訓練極大地限制了視覺模型對于高清細節的理解能力。
然而,當前視覺模型預訓練很難提升到更高的分辨率,核心原因在于計算代價過于高昂。比如 SigLIP,在預訓練過程中需要編碼整張圖像,計算復雜度至少與圖像分辨率二次增長,導致訓練成本暴漲,幾乎無法承受。
近日,伯克利聯合英偉達提出一項突破性成果:PS3 視覺編碼器,首次實現了在 4K超高分辨率下的高效視覺預訓練并且沒有額外開銷,并在此基礎上提出多模態大模型 VILA-HD。相比于目前最先進的多模態大模型(如 Qwen2-VL),VILA-HD 提升了高清場景下的表現和效率。
更關鍵的是,研究團隊還發布了一個強挑戰性的高分辨率視覺基準測試集:4KPro。在這個數據集上,VILA-HD 相比于 Qwen2-VL 提升了 3.2% 的準確率并且實現了三倍的加速。
研究團隊也開放了全部內容,該研究已被 CVPR 2025評為 Highlight 論文。
論文標題:Scaling Vision Pre-Training to 4K Resolution
論文地址:https://arxiv.org/abs/2503.19903
項目主頁:https://nvlabs.github.io/PS3/
代碼庫(即將開源):https://github.com/NVLabs/PS3
模型權重:即將發布
一、PS3
4K 超高清視覺預訓練
高清預訓練所遇到的困難
當前主流視覺模型之所以不能在 4K 下預訓練,是因為在高分辨率下需要整圖編碼,計算復雜度至少與圖像分辨率二次增長。這使得目前模型很難在 1K 或以上的分辨率進行預訓練。
但伯克利 & 英偉達團隊發現,識別局部細節無需整圖理解。于是他們提出局部對比學習的訓練范式,使得 PS3 能夠在沒有額外開銷的情況下將預訓練分辨率提高到 4K。
局部對比學習:「免費」的高清預訓練
傳統方法,例如 SigLIP,會對全局視覺表征和全局文字描述表征做對比學習。與之相比,PS3 采用局部對比學習策略:僅對圖像中的局部區域與局部區域的細節描述進行編碼和對比。這種方式不僅保留了高分辨率的細節理解能力,由于模型不需要處理整張高清圖像而只需要處理局部區域,也極大降低了計算成本。
實驗顯示,該方法訓練時間可以比直接在 4K 分辨率上預訓練節省 79 倍,與低分辨率預訓練 SigLIP 相近,卻能處理高達 4K 分辨率圖像,實現前所未有的精細表示能力。
PS3 關鍵設計:選擇性處理高清圖片
PS3 并非盲目處理所有像素,而是動態選擇性地采樣圖像區域:既可以使用圖像顯著性,也可以用任何自然語言來控制處理的區域。
此外,PS3 設計支持靈活的計算資源控制 —— 用戶可以根據場景需要,調整高分辨率 patch 的數量,平衡速度與性能。
二、VILA-HD
基于 PS3 的高分辨率 MLLM
基于 PS3,團隊構建了多模態大模型 VILA-HD,其核心優勢在于:
- 細節感知能力超過現有 MLLMs(如 Qwen2-VL)。這得益于 PS3 的高清視覺預訓練提升了細節理解能力。
- 響應速度也比現有 MLLM 更快:VILA-HD 可根據提示只處理圖像中相關區域,而不是一口吃下整張圖。這使得 VILA-HD 比當前基于 AnyRes/S2 等處理整張高清圖的 MLLM 速度更快。
- 根據用戶需求靈活調整響應速度:VILA-HD 可以靈活調整處理的高清區域大小,從而可以適應不同的推理開銷要求。
更有趣的是,團隊發現在 VILA-HD 上,PS3 展現了不同的有趣的擴展能力。在提升下游任務分辨率時,PS3 的性能比沒有高清預訓練的模型性能提升的要更快。PS3 還可以在提升分辨率的同時選擇固定大小的高清區域,從而在訓練與推理開銷保持不變的情況下提升性能。除此之外,PS3 還可以通過擴展訓練或測試時的計算量來進一步提高性能。
三、僅有高分辨率還不夠
我們還需要高分辨率的 Benchmark
研究者們發現,當前絕大多數視覺問答評測集,即使圖像是 4K 分辨率,實際任務卻不需要這么高的分辨率來解題。他們引入了一個新概念:MRR(Minimum Recognizable Resolution):完成某個任務所需的最小有效圖像分辨率。
分析顯示,大量數據集的 MRR 實際低于 1K,因此難以衡量高分辨率模型的真實優勢。
為此,研究團隊推出了 4KPro —— 這是一個真正需要 4K 級圖像感知能力才能完成的高分辨率基準測試。4KPro 在自動駕駛,家務家居,游戲 agent,UI 理解四個專業領域收集了 4K 分辨率的圖片以及需要 4K 分辨率才能回答的問題。
在 4KPro 上,VILA-HD 顯著優于現有 SOTA 多模態模型,比如相對 Qwen2-VL 提升了 3.2% 的準確率,同時在處理速度上可以實現最高 3 倍加速。
PS3 + VILA-HD 打破了長久以來視覺預訓練只能處理小圖像的桎梏,為真實世界應用(如自動駕駛、自動代理、家用機器人、工業檢測、醫學圖像等)打開了新的可能。