成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

通向高分辨率VLM (11): VILA-HD 原創(chuàng)

發(fā)布于 2025-5-8 06:39
瀏覽
0收藏

4k分辨率的視覺預(yù)訓(xùn)練:PS3

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

Paper??https://arxiv.org/abs/2503.19903??

Demo: ??https://huggingface.co/spaces/bfshi/VILA-HD-demo??

在之前介紹的高分辨率VLM系列中,我們見證了視覺語(yǔ)言模型,視覺編碼器逐漸從224/384的固定低分辨率,通過動(dòng)態(tài)切圖/原生動(dòng)態(tài)分辨率方法,逐漸走向了動(dòng)態(tài)的高分辨率圖像輸入。

想必對(duì)于讀過該系列的讀者,高分辨率在視覺領(lǐng)域的的重要性不用多說。英偉達(dá)團(tuán)隊(duì)將視覺預(yù)訓(xùn)練擴(kuò)展到了4k分辨率,提出了方法PS3,并基于此構(gòu)建了一個(gè)名為VILA-HD的高分辨率多模態(tài)大模型。相比于動(dòng)態(tài)分辨率,其擁有更少的計(jì)算復(fù)雜度,規(guī)避了動(dòng)態(tài)分辨率的transformer方法N方的推理計(jì)算復(fù)雜度,對(duì)高分辨率下的推理速度帶來了巨大的提升。

作者以自動(dòng)駕駛和為案例講述了高分辨率預(yù)訓(xùn)練的重要性:

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

盡管一些方法可以在沒有高分辨率預(yù)訓(xùn)練的情況下處理高分辨率圖像,但作者發(fā)現(xiàn),高分辨率預(yù)訓(xùn)練能夠利用大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)高質(zhì)量的高分辨率特征,從而提升性能。PS3 在 4K 分辨率上預(yù)訓(xùn)練后,明顯優(yōu)于 S2 和 AnyRes 等基線模型。

以往的視覺預(yù)訓(xùn)練方法(如 CLIP 和 SigLIP)無法擴(kuò)展到高分辨率,因?yàn)橛?jì)算成本過高。視覺模型需要對(duì)整張圖像進(jìn)行編碼,計(jì)算復(fù)雜度至少是二次的。然而,對(duì)于高分辨率圖像,通常不需要查看整張圖像。例如,在上述例子中,只需要關(guān)注停車標(biāo)志即可回答問題。這意味著,與其對(duì)整張圖像進(jìn)行對(duì)比學(xué)習(xí),不如在局部區(qū)域和局部描述之間進(jìn)行對(duì)比學(xué)習(xí)。這樣,模型仍然可以學(xué)習(xí)高分辨率圖像的詳細(xì)表示,而幾乎不需要額外成本。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

PS3 的成功關(guān)鍵在于能夠根據(jù)任何文本提示選擇性地處理高分辨率區(qū)域。這是通過一種自上而下(即提示感知)的選擇機(jī)制實(shí)現(xiàn)的,該機(jī)制允許模型專注于任何給定文本提示最相關(guān)的區(qū)域,并對(duì)低分辨率全局圖像和高分辨率局部區(qū)域分別進(jìn)行編碼。通過用戶的query去選擇相關(guān)區(qū)域,能顯著減少無用的細(xì)節(jié)信息提取。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

PS3的預(yù)訓(xùn)練方法

數(shù)據(jù)準(zhǔn)備

  • 高分辨率圖像數(shù)據(jù):收集了7500萬張1K到4K分辨率的圖像,包括自然圖像和文檔圖像。
  • 局部描述和邊界框:為每張圖像生成了2.82億對(duì)局部區(qū)域的邊界框和詳細(xì)描述。這些描述由MLLM(如Qwen2-VL)生成,確保模型能夠?qū)W習(xí)到高分辨率圖像中的細(xì)節(jié)特征。

模型設(shè)計(jì)

PS3的模型設(shè)計(jì)分為三個(gè)階段:

  1. 低分辨率全局特征提取(Low-Res Feature Extraction):使用與SigLIP相同的ViT架構(gòu)提取低分辨率全局特征。
  2. 自上而下或自下而上的局部區(qū)域選擇(Top-Down or Bottom-Up Patch Selection):模型根據(jù)低分辨率特征和文本提示(或圖像顯著性)計(jì)算每個(gè)空間位置的選擇分?jǐn)?shù),并選擇重要的局部區(qū)域。
  3. 高分辨率多尺度特征提取(High-Res Multi-Scale Feature Extraction):對(duì)選定的局部區(qū)域進(jìn)行高分辨率特征提取,并通過低分辨率KV緩存將全局上下文信息融入局部特征中。

預(yù)訓(xùn)練算法

PS3的預(yù)訓(xùn)練算法包括以下關(guān)鍵設(shè)計(jì):

  • 局部對(duì)比損失(Localized Contrastive Loss):通過對(duì)比局部高分辨率特征和局部描述的文本嵌入來學(xué)習(xí)詳細(xì)的視覺表示。
  • 邊界框監(jiān)督(Box Supervision):使用標(biāo)注的邊界框監(jiān)督模型選擇與局部描述相關(guān)的圖像區(qū)域,從而提高選擇的準(zhǔn)確性。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

Building VILA-HD with PS3

作者使用PS3作為視覺編碼器,構(gòu)建了高分辨率MLLM,VILA-HD,可以有效地處理高達(dá)4K的分辨率輸入。VILA-HD通過首先從PS3和文本query中獲取低分辨率特征,然后使用PS3選擇性地處理與文本提示相關(guān)的高分辨率區(qū)域,有效地處理高分辨率圖像。可以根據(jù)計(jì)算預(yù)算靈活地決定在VILA-HD中處理多少個(gè)高分辨率patch。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

VILA-HD 與 PS3 展現(xiàn)出出色的擴(kuò)展特性:

  • 當(dāng)分辨率提升且選擇每個(gè)分辨率的所有塊時(shí),VILA-HD 與 PS3 的擴(kuò)展曲線優(yōu)于沒有高分辨率預(yù)訓(xùn)練的基線模型。
  • VILA-HD 與 PS3 可以在不增加額外訓(xùn)練和推理成本的情況下,通過選擇固定數(shù)量的塊來提升分辨率并提高性能。
  • VILA-HD 與 PS3 可以通過選擇更多塊來權(quán)衡更好的性能,從而擴(kuò)展訓(xùn)練或測(cè)試時(shí)的計(jì)算量。

與 NVILA 和 Qwen2-VL 等頂尖多模態(tài)語(yǔ)言模型相比,VILA-HD 在包括圖表、文檔、OCR 和自然圖像理解的所有基準(zhǔn)測(cè)試中表現(xiàn)出色,并在需要高分辨率感知的基準(zhǔn)測(cè)試(如 V*bench)上創(chuàng)下新紀(jì)錄。VILA-HD 還實(shí)現(xiàn)了最佳效率,這得益于 PS3 的自上而下的塊選擇機(jī)制。具體來說,在選擇相同數(shù)量的標(biāo)記時(shí),PS3 顯著提高了 ViT 的效率,同時(shí)實(shí)現(xiàn)了更好的性能。PS3 也是唯一能夠處理 4K 分辨率的方法。

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)

4KPro:4K 分辨率感知Benchmark

  • 以往基準(zhǔn)測(cè)試不需要 4K 分辨率感知:盡管以往的圖像問答基準(zhǔn)測(cè)試包含高達(dá) 4K 分辨率的圖像,但這些問題并不真正需要 4K 分辨率感知來回答。我們手動(dòng)檢查了每個(gè)問題的最低可識(shí)別分辨率(MRR),即回答問題所需的最低分辨率,發(fā)現(xiàn)大多數(shù)問題只需要不超過 1K 分辨率即可回答。
  • 4KPro 嚴(yán)格要求 4K 分辨率感知:為此,我們提出了 4KPro,這是一個(gè)嚴(yán)格要求 4K 分辨率感知的新基準(zhǔn)測(cè)試。4KPro 包括自動(dòng)駕駛、家居、游戲和 GUI 理解四個(gè)專業(yè)領(lǐng)域的 4K 分辨率問答任務(wù)。通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)
  • VILA-HD 在 4KPro 上實(shí)現(xiàn)頂尖性能和效率:VILA-HD 與 PS3 的擴(kuò)展曲線優(yōu)于沒有高分辨率預(yù)訓(xùn)練的基線模型。VILA-HD 還實(shí)現(xiàn)了比 Qwen2-VL 等以往多模態(tài)語(yǔ)言模型更好的性能和效率通向高分辨率VLM (11): VILA-HD-AI.x社區(qū)


本文轉(zhuǎn)載自公眾號(hào)思源數(shù)據(jù)科學(xué) 作者:思源Source

原文鏈接:??https://mp.weixin.qq.com/s/UnmBCkMV6TueeXqrul6gRg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-5-8 13:48:24修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产成人精品一区二区 | 亚洲 欧美 激情 另类 校园 | 日韩精品中文字幕在线 | 欧美福利在线 | 久久69精品久久久久久国产越南 | 欧美日韩在线一区 | www.国产精品 | 国产一区三区在线 | 成人性视频免费网站 | 在线免费亚洲视频 | 亚洲欧美aⅴ | 九一国产精品 | 超碰免费在线 | 91免费在线视频 | 久久精品中文字幕 | 亚洲第1页| 国产精品人人做人人爽 | 亚洲精品一 | 亚洲午夜精品 | 亚洲国产伊人 | 激情在线视频 | 韩日精品在线观看 | 一级毛片黄片 | 在线免费观看视频黄 | 国产一区二区三区 | 日本三级精品 | 精品1区2区 | 91嫩草精品 | 九九免费视频 | 日韩中文字幕第一页 | 国产精品精品久久久 | 欧美亚洲一区二区三区 | 日韩欧美国产一区二区 | 日韩91在线 | 亚洲精品1区 | 日韩一区二区免费视频 | 99精品99| 国产高清av免费观看 | 色一情一乱一伦一区二区三区 | 日韩精品一区二区三区在线播放 | 成人免费在线视频 |