谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）

angel

發布于 2024-11-11 10:45

瀏覽

0收藏

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）-AI.x社區

文章鏈接：https://arxiv.org/pdf/2410.16512

亮點直擊

通用圖像表示模型：TIPS 結合圖像-文本和自監督學習的優勢，適用于密集和全局預測任務，實現了廣泛的下游應用。
增強的文本監督信號：利用合成生成的圖像描述標簽，提升了模型對圖像內容和空間關系的理解，尤其有利于密集視覺任務。
雙重標簽對比損失：通過合成和噪聲標簽分別訓練模型，使其在密集和全局任務上均表現優異。
空間一致性與多任務性能：TIPS 通過自蒸餾和掩碼圖像建模技術，增強了空間一致性，在 8 項任務和 16 個數據集上展示了強大的即插即用能力。

TIPS：具有空間意識的文本圖像預訓練。TIPS是一種通用的圖像-文本編碼器模型，可有效用于密集和全局理解，用于純視覺或視覺語言任務，整體應用流程見下圖：

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）-AI.x社區

總結速覽

解決的問題

現有的圖像-文本表示學習模型通常缺乏空間意識，難以直接用于密集理解任務（例如深度估計、語義分割）。因此，許多密集視覺任務仍然依賴于圖像的自監督預訓練方法，盡管缺乏明確的監督信號。

提出的方案

提出了一種新穎的通用圖像-文本模型，稱為 TIPS（Text-Image Pretraining with Spatial awareness），通過加入空間意識來提升圖像-文本學習的效果，使其能夠在密集和全局視覺任務中直接應用。

應用的技術

文本監督改進：使用合成生成的文本描述代替噪聲較大的網絡圖像描述，提供更豐富的空間表示學習信號；并通過一種新的訓練方法，將噪聲與合成文本描述結合，提升密集與全局理解任務的效果。
學習技術：結合對比圖像-文本學習與自監督的圖像掩碼建模，增強空間一致性，以提高模型在下游應用中的性能。

達到的效果

基于上述策略，構建了基于Transformer的模型，使用公共圖像數據集進行訓練，實驗證明該模型在8項任務和16個數據集上表現優異，具有強大的密集和全局理解的即插即用能力，并適用于多種圖像-文本及僅圖像的任務。

TIPS

本文的目標是創建一個通用的圖像表示模型，具備文本對齊功能，可即插即用地應用于密集和全局視覺任務。雖然圖像-文本對比技術能夠有效地建模全局圖像信息，但在密集理解任務中表現欠佳，而自監督模型目前在這些任務中表現更優。為彌補這一差距，本文提出了具備空間感知的圖像-文本預訓練方法（TIPS），如下圖2所示，通過合成圖像描述增強弱監督，以及自監督掩碼建模，顯著提高了圖像特征質量，適用于密集和全局理解。

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）-AI.x社區

使用合成圖像描述增強弱監督

使用大規模網絡數據進行標準圖像-文本學習的一個限制在于描述質量，這些描述往往噪聲較大，可能無法準確描述圖像。如下圖3（上）所示，“for sale dealership $30k”這一文本未描述圖像內容。雖然這可能會影響模型學習，但描述仍捕捉到了主要物體。

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）-AI.x社區

然而觀察到的一個更深層問題是，這些描述通常僅提到顯著的物體，而未描述其在場景中的布局。換句話說，這些描述通常作為噪聲的圖像級監督，通常對學習具有空間感知的表示用處不大。這促使研究合成描述的自動生成，其可作為密集任務的有效預訓練弱監督。

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）-AI.x社區

融合自蒸餾和掩碼以增強圖像特征

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）-AI.x社區

討論。本文的方法基于弱監督和自監督學習的表示學習理念。據所知，這是首次將對比圖文學習與自蒸餾和掩碼圖像建模結合，展示出在多個任務上的改進，表明這些目標間存在積極的協同作用。最接近的方法是 SILC，它將 CLIP 與自蒸餾結合。然而，如實驗消融顯示，添加掩碼圖像損失在密集任務中的表現顯著提升，對于下游應用至關重要。指出與先前方法的一些關鍵區別。由于使用 CLIP 損失，自監督組件可以簡化，相比 DINO和 iBOT的原始形式。一大區別是使用單一全局“裁剪”，而非 DINO、iBOT 和 SILC 中的雙裁剪，提升了25%的處理效率。此外，與許多自監督方法不同，使用相對簡單的數據增強：局部裁剪只是原始圖像的隨機裁剪，全局裁剪是更大的隨機裁剪并水平翻轉。這與 Assran 等 (2023); Moutakanni 等 (2024) 的觀點相似，即復雜的增強可能對于表示學習并非必要。最后，本文的掩碼方法為隨機掩碼，而非 iBOT 中的塊狀掩碼。

擴展 TIPS

本文的目標是創建一個高度通用的模型，因此關鍵是將其擴展到大模型架構和大規模訓練數據集，以獲得增強的圖像表示。

模型。ViT 架構已證明在多個任務中可擴展到十億級參數的模型。將 TIPS 模型擴展至 ViT-g 架構，采用14的補丁大小，并使用 SwiGLU前饋網絡變體。類似于 Oquab 等，將嵌入維度調整為1536，并設置24個頭。這樣，使得圖像編碼器與 DINOv2-g 直接可比，總參數量達1.1B。在文本側，將 transformer 擴展到12層，具有與圖像編碼器相同的嵌入維度和頭數。

數據集。利用了 WebLI 數據集，這是一個包含公共圖像及其 alt 文本的大規模、噪聲較大的網絡數據集，總共包含 100 億對圖文樣本。通過多輪過濾來提升數據集質量，從而更適合模型訓練，類似于先前在語言和視覺領域的研究。首先，根據預訓練對齊模型計算的圖文相似度，對圖文對進行內容過濾，丟棄那些相似度低的樣本，類似于 Schuhmann et al. 。然后，篩選僅包含英文描述的樣本。這兩個步驟得到一個包含 17 億張圖像的數據集。最后，參考先前研究的方法，使用預訓練模型計算圖像嵌入，從經過策劃的數據集中選擇足夠相似的圖像。還刪除了在評估數據集中出現的近重復圖像。該過程最終生成了一個包含 1.16 億對圖文樣本的主要預訓練數據集。

實驗

實驗設置

評估數據集與協議。本文的模型在包含 16 個數據集的 8 項任務上進行評估，包括僅圖像任務和圖文任務。在各種條件下全面評估所學習的表示的質量，涵蓋室內/室外場景和以物體為中心的圖像。在所有評估中，保持圖文表示凍結，以評估其作為即用型特征提取器的適用性。評估了 3 項密集預測任務、2 項全局圖像理解任務和 3 項多模態檢索任務。

語義分割 是在 PASCAL和 ADE20k數據集上使用平均交并比（mIoU）評估的密集任務。使用類似于 (Oquab et al., 2024) 的簡單線性探測設置，從空間特征中預測類別。

單目深度估計 旨在預測圖像中每個像素的深度值。在場景中心的 NYUv2和以物體為中心的 NAVI數據集上對深度估計進行基準測試，使用 RMSE 作為評估指標。對于 NYUv2，使用類似于 (Oquab et al., 2024) 的線性探測設置，將補丁標記與全局嵌入連接，然后線性分類器在 256 個量化深度值中進行預測。對于 NAVI，遵循 (El Banani et al., 2024) 并使用 DPT解碼器。

表面法線估計 是密集預測每個像素的 3D 表面法線方向的任務，也在 NYUv2 和 NAVI 數據集上進行評估。使用 (El Banani et al., 2024) 的設置并報告角度 RMSE。

圖像分類 在 ImageNet-1K 數據集上進行評估，使用 K 最近鄰（KNN）和線性探測法基于學習的特征進行評估，并報告 top-1 準確率。

細粒度和實例級檢索 使用 Universal Embeddings Dataset (UnED) 評估，該基準集包含 8 個領域的數據集：食品 (Food2k)、汽車 (CARS196)、在線產品 (SOP)、服裝 (InShop)、自然世界 (iNat)、藝術品 (Met)、地標 (GLDv2) 和零售產品 (Rp2k)。報告 8 個領域的平均 R@1，并在附錄中提供分領域結果。

圖像到文本（I→T）檢索 使用 Flickr30K、DOCCI和 COCO數據集進行評估，報告 R@1 指標。

文本到圖像（T→I）檢索 同樣使用 Flickr30K、DOCCI 和 COCO 數據集，使用 R@1 指標。

zero-shot 分類在 ImageNet-1K 上進行，通過檢索與每個測試圖像嵌入最接近的類文本嵌入，遵循（Radford et al., 2021），并使用 top-1 準確率。使用一組策劃數據集中的圖像作為查詢，在大量網頁圖像中進行挖掘。遵循 DINOv2采用的步驟，使用一些評估數據集的訓練集作為策劃查詢，細節在附錄中提供。這導致了一個包含 1.16 億對圖像-文本的基于網頁的訓練數據集。此外，對于擴展的 ViT-g 實驗，將 Mapillary SLS 數據集的訓練集原封不動地添加到訓練集中，以補償網頁圖像中缺乏街景圖像，并且在沒有任何替代文本的情況下，使用生成的合成描述來訓練兩個 CLS token。這使訓練集中的圖像總數增加到 1.17 億。DINOv2 對其 LVD-142M 數據集也進行了類似的處理。

實現細節。對于所有模型，使用 1 個全局裁剪，分辨率為 224，和 M = 6 個局部裁剪，分辨率為 98。以批量大小 16k 訓練 ViT-B 模型 70 輪，這在 256 個 TPUv3 芯片上耗時 4 天。對于更大的 ViT-g 模型，以批量大小 16k 訓練 15 輪，這在 512 個 TPUv5 芯片上耗時 2 天，結果是低分辨率模型（TIPS-g/14 LR）。對于高分辨率變體（TIPS-g/14 HR），添加了一個額外的微調階段，使用分辨率為 448 的全局裁剪和分辨率為 140 的局部裁剪，運行 0.1 輪，批量大小為 4k。僅使用隨機調整大小的裁剪和水平翻轉作為圖像增強。

描述生成模型。利用最近的 PaliGemma模型進行圖像描述生成。使用在 COCO 上微調的版本，224 像素版本用于核心預訓練運行，448 像素版本用于短期高分辨率微調階段。

比較技術。提供大量與最近工作的比較。對于每個現有模型家族，與最大的實例進行比較，直到 ViT 大小為“g”或“G”，圖像編碼器中的參數約為 18 億或更少。本文的方法與一系列方法進行了基準測試，包括自監督、弱監督和監督文獻。所有方法均使用現成的、凍結的權重進行公平比較。作為自監督方法，與 DINO、MAE、iBOT和 DINOv2進行了比較。作為弱監督方法，與 CLIP、OpenCLIP、SigLIP、SILC和 EVA-CLIP進行了比較。作為監督方法，基準測試了在 JFT-3B 上訓練的 ViT-g，正如（Zhai et al., 2022）所述。

結果

消融實驗。在 5 個不同任務上展示了消融實驗（見下表 1），以孤立增強文本監督和新損失的效果，其中使用了 ViT-B 骨干網。基線 CLIP 模型的噪聲網頁描述呈現于（A）。表的部分（B）消融了增強文本監督的貢獻。僅僅用 PaliGemma 生成的描述替換網頁描述就提高了 10.1 個百分點的分割精度，并減少了 0.076 的深度 RMSE，這都是巨大的正收益。這顯示了合成描述在使用圖像-文本模型進行密集理解中的潛力。然而，同時，全球任務顯示出顯著的退步，KNN 分類損失減少了 6.9 分。但通過結合網頁和合成描述，CLIP 性能可以在所有任務中提高：使用雙嵌入方法，在各個領域實現了巨大的收益。還將雙重方法與 Fan et al.（2023）提出的其他兩種描述組合選項進行比較：“采樣”，其中隨機選擇網頁或合成描述；或“多文本”，其中兩個描述分別與相同的圖像嵌入匹配。雙重方法在 5 個案例中有 3 個表現優于其他描述組合，并在其他 2 個案例中達到競爭性結果，這表明其有效性。

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）-AI.x社區

部分（C）消融了自監督損失的效果，使用網頁描述。自蒸餾的加入在所有任務中帶來了改善。這是一個類似于 SILC的設置：確認了它們在 I→T 和 T→I 檢索中的發現，并且還表明自蒸餾損失對僅圖像任務（尤其是密集任務）是有效的。通過額外的掩蔽圖像建模（MIM）損失，密集任務中觀察到了顯著改善，而在其他任務中保持了高分數：分割精度提高了 5.6 分，深度 RMSE 降低了 0.078。

部分（D）結合了（B）和（C）的發現，為基線 CLIP 設置提供了非常顯著的改進，在所有任務中，特別是在分割中提高了 14.6 分，深度 RMSE 減少了 0.142，I→T 檢索提高了 10.1 分，T→I 檢索提高了 14.4 分。

與現有通用方法的比較在下表 2 和表 3 中提供，涉及僅圖像或圖像和文本的任務，其中 TIPS 的結果在高分辨率微調前（“LR”）和后（“HR”）提供。總體而言，TIPS 實現了強勁的結果，在廣泛的任務中表現出競爭力，在 16 個報告的評估中，有 13 項達到了最佳或第二最佳的結果。與現有的圖像-文本方法相比，TIPS 在 I→T 和 T→I 檢索上有所改善，同時在密集預測任務中也取得了實質性的收益，在某些情況下達到了 DINOv2 的水平并超過了它。有趣的是，盡管最近的圖像-文本模型在多模態檢索或zero-shot 分類中取得了優異的結果，但這些收益并沒有轉化為密集理解的改進，其性能明顯落后于 TIPS 和自監督方法。特別是，即使 CLIP-L 在圖像級預測任務上的表現較差，但在所有 6 個密集評估中都超越了最近的 SigLIP-SO。另一種最近且規模更大的通過對比學習訓練的圖像模型 InternViT-6B在 ADE20k 上的得分為 47.2%，遠低于本文的11 億 TIPS-g 模型。在監督方法方面，在 JFT-3B 上訓練的 ViT-g 在密集任務上的表現也不如 CLIP-L。甚至更大的 ViT-22B，也在 JFT 上訓練，在相同設置下的 ADE20k 上僅獲得 34.6% 的得分，如 Chen et al.（2024）所報告。與自監督技術相比，TIPS 實現了強勁的結果，在大多數情況下與 DINOv2 的數字相當，并在分割和檢索方面顯著超越它，同時實現了自監督方法單獨無法執行的多模態任務。下圖 4 展示了密集特征探針的定性示例。

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）-AI.x社區

應用：單圖像到三維。現代大型重建模型依賴高質量的預訓練圖像編碼器，以產生圖像標記供編碼器/解碼器Transformer使用。例如，LRM根據單個輸入圖像的圖像特征預測神經渲染模型的參數。作者選擇基于 ViT 的 DINO 編碼器，而不是更具語義意識的編碼器（如 CLIP），因為 DINO 編碼器掌握了進行三維任務所需的結構和紋理信息。

為了更好地理解本文模型在神經三維重建方面的能力，在 LRM 框架中評估 TIPS 的性能，并將 DINO-B/16 與同等規模的 TIPS-B/14 進行比較。選擇使用 DINO-B/16，以遵循原始論文的實現。單圖像到三維的結果在 Objaverse 數據集中展示在下表 4 中，結果表明 TIPS 作為大型重建模型的圖像編碼器優于 DINO，具有增強的新視圖合成能力（PSNR 增加 0.62）。

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）-AI.x社區

結論

TIPS（具有空間意識的文本-圖像預訓練），這是一種新的通用圖像-文本編碼器。TIPS 可以成功地應用于各種計算機視覺任務，實現密集和圖像級預測，利用兩個簡單有效的貢獻。首先，利用現有的多模態生成模型生成高質量的合成圖像描述，這些描述用于改善對比學習并提升在密集圖像預測上的性能。本文提出了一種雙嵌入方法，以利用合成和噪聲網頁描述，從而在廣泛的任務中獲得收益。其次，將對比圖像-文本學習與自蒸餾和掩蔽圖像建模相結合，激勵模型學習空間感知的表示。這兩個貢獻是互補的，能夠有效地將模型擴展到在 1.17 億圖像的精心策劃數據集上訓練的 ViT-g 架構。全面實驗在包括 16 個數據集的 8 項任務上展示了強大的現成結果，使涉及僅圖像或圖像和文本的各種計算機視覺應用成為可能。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/kCpe34PTpiFGAgCM1cAhfg??

標簽

模型

圖像生成

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）

總結速覽

解決的問題

提出的方案

應用的技術

達到的效果

TIPS

使用合成圖像描述增強弱監督

融合自蒸餾和掩碼以增強圖像特征

擴展 TIPS

實驗

實驗設置

結果

結論

目錄