成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2025 Spotlight|南洋理工陶大程教授團隊等提出基于RAG的高分辨率圖像感知框架,準確率提高20%

人工智能 新聞
研究人員通過實驗,探索 RAG 應用在 MLLM 對于高分辨率圖像感知的可行性。基于實驗發現,提出了?Retrieval-Augmented Perception (RAP), 一種無需訓練的基于 RAG 技術的高分辨率圖像感知插件。該工作已被 ICML 2025 接收,并獲評為 Spotlight 論文(top 2.6%)。

該工作由南洋理工大學陶大程教授團隊與武漢大學羅勇教授、杜博教授團隊等合作完成。

近些年,多模態大語言模型(MLLMs)在視覺問答、推理以及 OCR 等任務上取得了顯著的成功。然而,早期的 MLLMs 通常采用固定的分辨率(例如 LLaVA-v1.5 將輸入圖像縮放為),對于輸入圖像為高分辨率圖像(例如 8K 分辨率)會導致圖像變得模糊,損失大量有效的視覺信息。

為了解決上述問題,目前的解決方案分為三類:

1. 基于裁剪的方法:對于高分辨率圖像裁剪成多個子圖,每個子圖分別通過視覺編碼器提取視覺特征后再進行拼接。然而對于 8K 的圖像,假設采用 ViT-L/14 就需要接近 300K 的 visual token 長度,這對于目前大語言模型(LLM)的長上下文建模能力是一個巨大的挑戰。

2. 采用處理高分圖像的視覺編碼器:使用能處理更高分辨率圖像的視覺編碼器代替基于 CLIP 訓練的 ViT。然而,對于 8K 分辨率的圖像,依舊會縮放到對應視覺編碼器能接受的輸入分辨率 (例如 ConvNeXt-L 的分辨率為圖片)。

3. 基于搜索的方法:這類方法不需要訓練,通過將高分辨率圖像構建成樹結構,在樹結構上進行搜索。然而,這類方法在搜索的開始階段輸入的是高分辨率圖像,從而容易搜索錯誤的路徑,導致推理時延增加甚至搜索到錯誤的結果。

事實上,在自然語言處理領域,對于長上下文建模,通過檢索增強生成技術(RAG),檢索關鍵的文本片段代替原始的長上下文作為輸入,從而提高 LLM 回復的準確度。那么在 MLLM 中,是否也可以基于 RAG 技術提高 MLLM 對高分辨率圖像的感知?

為了回答上述問題,研究人員通過實驗,探索 RAG 應用在 MLLM 對于高分辨率圖像感知的可行性。基于實驗發現,提出了 Retrieval-Augmented Perception (RAP), 一種無需訓練的基于 RAG 技術的高分辨率圖像感知插件。該工作已被 ICML 2025 接收,并獲評為 Spotlight 論文(top 2.6%)。

圖片

  • 論文鏈接:https://arxiv.org/abs/2503.01222
  • 主頁鏈接:https://dreammr.github.io/RAP
  • 代碼鏈接:https://github.com/DreamMr/RAP

思考

為了探究將 RAG 應用于 MLLM 的高分辨率圖像感知,研究人員提出了三個問題:

1. 檢索出來的圖像塊如何布局?

2. 檢索的圖像塊數量對最終性能的影響如何?

3. 如何基于上述發現,將 RAG 更好的應用于 MLLMs 對高分辨率圖像的感知?

檢索出來的圖像塊布局方式

為了探究檢索圖像塊布局的影響,研究人員設計了三種策略:1)按照檢索的分數從高到低進行排列;2)按照原始順序進行排列和 3)維持檢索圖像塊的相對位置關系。具體的布局例子見下圖。

圖片

如下表所示,在三種布局方案中,對于單實例感知任務(FSP)都有顯著提升,然而 1)和 2)在跨實例感知任務(FCP)上相較于 baseline 有明顯性能下降。而 3)由于維持了圖像塊之間的相對位置關系,因此 3)在 FCP 任務上在三種策略中取得更好的效果。

圖片

結論 1: 維持檢索圖像塊之間的相對位置關系是有必要的,特別是對于需要空間感知的任務。

檢索的圖像塊數對最終性能的影響

為了探究檢索的圖像塊數的影響,研究人員使用 LLaVA-v1.5 和 LLaVA-v1.6 7B & 13B 在高分圖像感知評測數據集 HR-Bench 上進行實驗。

如下圖所示,當檢索的數量 (K) 增加時,由于提供了更多的視覺信息,在 FCP 任務上的性能逐漸增加。然而,當K增加時,輸入圖像的分辨率也相應增加,導致模型輸出的結果準確性下降。相反,對于 FSP 任務而言,較小的 K 便能取得更好的效果,但是在 FCP 任務上效果較差。

圖片

結論 2: 不同的任務類型需要保留的圖像塊數不同。對于 FSP 任務而言,僅需要較少的圖像塊數便能取得較好的效果,更多的圖像塊數反而影響模型的性能。對于 FCP 任務而言,更多的圖像塊數能夠保留足夠的視覺信息,但是依舊受到輸入圖像分辨率的限制。

方法

基于上述實驗發現,研究人員提出了一種無需訓練的高分圖像檢索增強框架 —— Retrieval-Augmented Perception (RAP)。RAP 的設計原理是通過檢索和用戶問題相關的圖像塊,代替原始的高分辨率圖像輸入到 MLLMs 中。該方法有效地降低輸入圖像的分辨率,并且保留和用戶問題相關的關鍵視覺信息。為了維持檢索圖像塊之間的相對位置關系,研究人員設計了 Spatial-Awareness Layout 算法,通過確定關鍵的圖像塊的位置,剔除無效的行和列,在降低圖像分辨率的同時,有效保持圖像塊之間的相對位置關系。此外,為了自適應選擇合適的K,研究人員提出了 Retrieved-Exploration Search (RE-Search),通過檢索的相似度分數和模型的置信度分數作為啟發式函數,引導模型搜索合適的K。方法架構圖如下圖所示:

圖片

Spatial-Awareness Layout: 對于一張高分辨率圖像,首先對其進行裁剪成多個圖像塊 (V)。接著通過檢索器 VisualRAG 計算每個圖像塊和用戶問題 (q) 的相似度分數圖片

圖片

然后根據預先設定要保留的圖像塊數K,篩選出 top - K圖像塊,并構建 0-1 矩陣M標記要保留的圖像塊的位置為 1,其余位置標記為 0。接著對矩陣M進行掃描,提取其中非零行和列的索引,其余位置刪除,從而生成壓縮矩陣圖片。最后根據壓縮矩陣圖片提取出相應的圖像塊合成新的圖像圖片

RE-Search: 為了自適應選擇保留的圖像塊數K,研究人員受到圖片算法的啟發提出了 RE-Search。研究人員將當前的圖像按照不同的保留圖像塊數的比例,通過 Spatial-Awareness Layout 算法對圖像進行壓縮,生成子節點。與之前基于搜索的方法不同,為了避免在搜索的初始階段受到圖像分辨率的影響,RE-Search 引入了每個圖像塊和用戶問題的相似度分數圖片:

圖片

這里圖片表示有效的圖像塊,n表示有效的圖像塊的數量,g(t)表示當前的圖像與用戶問題的語義相似度。在圖片算法中通過啟發式函數h估計從當前狀態到目標狀態的花費。這里通過讓 MLLM 自身判斷當前的圖像圖片是否有足夠的視覺信息回答用戶的問題:

其中圖片表示 MLLM,圖片是提示模板用于構造文本問題(例如:“Question: {q} Could you answer the question based on the available visual information?”)。這里計算模型對于回復為 “Yes” 的置信度分數作為啟發式函數。

由于在最開始圖像的分辨率較大,模型輸出的結果h(t)不可靠。因此在最開始搜索過程中降低h(t)的權重,隨著搜索深度加深,逐漸增加h(t)的權重,具體計算公式如下:

圖片

其中b是一個超參數,具體實現時設置為0.2,d是搜索的深度。

實驗結果

本文在高分辨率圖像評測數據集圖片 Bench 和 HR-Bench 上進行評測。對比的方法包括基于裁剪的方法(LLaVA-v1.6, InternVL-1.5 等)以及使用處理高分辨率圖像的視覺編碼器的方法(LLaVA-HR-X),實驗結果如下表所示,RAP 在單實例感知和多實例感知任務上都能帶來明顯的性能提升。特別是在 HR-Bench 4K 和 8K 上分別帶來最大 21% 和 21.7% 的準確率提升。

圖片

論文中還對比了基于搜索的方法(結果見下表),RAP 相比于圖片 和 Zoom Eye 在吞吐量和準確率上都取得更好的效果。

圖片

此外,消融實驗表明 (見下表),如果僅加入 VisRAG 檢索和用戶問題相關的圖像塊,僅帶來 6.5% 的提升,通過維持檢索圖像塊之間的相對位置關系在 FCP 任務上能夠有所改進。通過引入 RE-Search 自適應選擇合適的K,最終能夠帶來 21.7% 的性能提升。

圖片

總結

綜上,該工作提出了 Retrieval-Augmented Perception (RAP),一種無需訓練基于 RAG 技術提高 MLLM 對高分辨率圖像感知的方法。該方法使用 Spatial-Awareness Layout 算法維持檢索的圖像塊之間的相對位置信息,通過 RE-Search 自適應選擇合適的K值,在保留關鍵視覺信息的同時有效降低圖像的分辨率。實驗結果表明,RAP 在 MLLM 高分辨率圖像感知的場景中展現出顯著優勢。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2012-01-05 16:08:57

佳能激光打印機

2023-02-16 07:30:55

圖形編輯器屏幕開發

2011-11-14 13:30:27

惠普掃描儀

2023-02-20 14:56:14

圖像

2023-10-27 08:30:52

傳輸接口刷新率

2020-09-21 16:11:04

Adobe 軟件平臺

2022-12-05 15:27:52

VR技術

2024-06-05 09:26:50

2022-03-23 10:44:02

圖像訓練框架

2025-02-05 12:41:21

線性新范式分辨率

2011-10-31 17:12:42

激光打印機評測

2012-01-17 10:35:31

惠普掃描儀

2011-10-28 15:52:22

激光打印機評測

2018-11-16 09:50:46

Windows 10高分辨率屏幕截圖

2023-12-04 13:23:00

數據訓練

2022-11-01 08:00:00

2018-07-19 15:00:41

衛星圖像

2021-10-11 17:27:50

框架計算機開發

2011-04-28 13:09:49

2019-01-14 14:56:17

分辨率1080P2K
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费观看毛片 | 在线观看免费av网 | 91精品一区 | 天天操夜夜拍 | 国产精品毛片av一区 | 久久伊人在 | 精品国产伦一区二区三区观看说明 | 精品国产色 | 中文在线а√在线8 | 亚洲精品久久久一区二区三区 | 欧美性视频在线播放 | 作爱视频免费观看 | 中文字幕精品一区 | 免费一级欧美在线观看视频 | 日韩中文字幕 | 99re视频在线| 亚洲精品成人 | 国产精品自拍视频网站 | 在线中文字幕国产 | 一区精品国产欧美在线 | 欧美乱大交xxxxx另类电影 | 中文字字幕一区二区三区四区五区 | 精品亚洲一区二区 | 一区日韩 | 亚洲精品久久久蜜桃网站 | 欧美精品一区在线发布 | 91亚洲精选 | 97国产精品 | 欧美日韩不卡在线 | 日本激情一区二区 | 久久免费精彩视频 | 黄色在线免费观看 | 久久夜视频 | 黄色国产大片 | 91国在线高清视频 | 欧美激情一区 | 电影91久久久 | 91精品国产综合久久香蕉922 | www.狠狠干| 久久久久久久久99 | 成人免费视频网站在线看 |