ConvNet與Transformer誰更強?Meta評測4個領先視覺模型,LeCun轉贊
如何根據特定需求選擇視覺模型?
ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指標上如何相互比較?
來自MABZUAI和Meta的研究人員發表的最新研究,在「非標準」指標上全面比較了常見的視覺模型。
論文地址:https://arxiv.org/pdf/2311.09215.pdf
就連LeCun稱贊道,非??岬难芯浚容^了相似大小的ConvNext和VIT架構,無論是在監督模式下訓練,還是使用CLIP方法進行訓練,并在各種屬性上進行了比較。
超越ImageNet準確性
計算機視覺模型格局,變得越來越多樣復雜。
從早期的ConvNets到Vision Transformers的演進,可用模型的種類在不斷擴展。
類似地,訓練范式已經從ImageNet上的監督訓練,發展到自監督學習、像CLIP這樣的圖像文本對訓練。
在標志著進步的同時,這種選擇的爆炸式增長給從業者帶來了重大挑戰:如何選擇適合自己的目標模型?
一直以來,ImageNet準確率一直是評估模型性能的主要指標。自從引發深度學習革命以來,它已經推動了人工智能領域顯著的進步。
不過,它卻無法衡量因不同架構、訓練范式和數據而產生的細微差別的模型。
如果僅根據ImageNet的準確度來判斷,具有不同屬性的模型可能看起來很相似(圖 1)。隨著模型開始過度擬合ImageNet的特性,精度達到飽和,這種局限性就會變得更加明顯。
為了彌補差距,研究人員對ImageNet準確性之外的模型行為進行了深入探索。
為了研究架構和訓練目標對模型性能的影響,具體比較了Vision Transformer (ViT)和ConvNeXt。這兩種現代架構的ImageNet-1K驗證精度和計算要求相當。
此外,研究對比了以DeiT3-Base/16和ConvNeXt-Base為代表的監督模型,以及OpenCLIP基于CLIP模型的視覺編碼器。
結果分析
研究人員的分析旨在,研究無需進一步訓練或微調即可評估的模型行為。
這種方法對于計算資源有限的從業人員尤為重要,因為他們通常依賴于預訓練模型。
具體分析中,雖然作者認識到對象檢測等下游任務的價值,但重點是那些能以最小的計算需求提供洞察力的特性,以及反映對真實世界應用非常重要的行為的特性。
模型錯誤
ImageNet-X是一個對ImageNet-1K進行了擴展的數據集,其中包含16個變化因素的詳細人工標注,從而能夠深入分析圖像分類中的模型錯誤。
它采用錯誤率(越低越好)來量化模型在特定因素上,相對于整體準確性的表現,從而對模型錯誤進行細致入微的分析。ImageNet-X 的結果表明:
1. 相對于其ImageNet準確性,CLIP模型比受監督的模型犯的錯誤更少。
2. 所有模型都主要受到遮擋等復雜因素的影響。
3. 紋理是所有模型中最具挑戰性的因素。
形狀/紋理偏差
形狀/紋理偏差會檢驗模型,是否依賴于紋理快捷方式,而不是高級形狀提示。
這種偏向可以通過結合不同類別的形狀和紋理的提示沖突圖像來研究。
這種方法有助于了解與紋理相比,模型的決策在多大程度上是基于形狀的。
研究人員對提示沖突數據集上的形狀-紋理偏差進行了評估,發現CLIP模型的紋理偏差小于監督模型,而ViT模型的形狀偏差高于ConvNets。
模型校準
校準可量化模型的預測置信度與其實際準確度是否一致。
這可以通過預期校準誤差 (ECE) 等指標,以及可靠性圖和置信度直方圖等可視化工具進行評估。
研究人員在ImageNet-1K和ImageNet-R上對校準進行了評估,將預測分為15個等級。在實驗中,觀察到以下幾點:
- CLIP模型置信度高,而監督模型則略顯不足。
- 有監督的ConvNeXt比有監督的ViT校準得更好。
健壯性和可移植性
模型的健壯性和可移植性,是適應數據分布變化和新任務的關鍵。
研究人員使用不同的ImageNet變體評估了穩健性,發現雖然ViT和ConvNeXt模型具有類似的平均性能,但除了ImageNet-R和ImageNet-Sketch之外,監督模型在穩健性方面通常優于CLIP。
在可移植性方面,使用VTAB基準測試對19個數據集進行評估,監督ConvNeXt優于ViT,幾乎與CLIP模型的性能相當。
合成數據
像PUG-ImageNet這樣的合成數據集,可以精確控制相機角度和紋理等因素,成為一種很有前途的研究途徑,因此研究人員根據合成數據分析模型的性能。
PUG-ImageNet包含逼真的ImageNet圖像,這些圖像具有照明等因素的系統變化,性能以絕對最高準確率來衡量。
研究人員提供了PUG-ImageNet中不同因素的結果,發現ConvNeXt在幾乎所有因素上都優于ViT。
這表明ConvNeXt在合成數據上優于ViT,而CLIP模型的差距較小,因為CLIP模型的準確率低于監督模型,這可能與原始ImageNet的準確率較低有關。
特征不變性
特征不變性是指模型能夠產生一致的表征,不受輸入轉換的影響,從而保留語義,如縮放或移動。
這一特性使模型能夠在不同但語義相似的輸入中很好地泛化。
研究人員的方法包括,調整圖像大小以實現比例不變性,移動裁剪以實現位置不變性,以及使用內插位置嵌入調整ViT模型的分辨率。
在有監督的訓練中,ConvNeXt的表現優于ViT。
總體而言,模型對尺度/分辨率變換的魯棒性高于對移動的魯棒性。對于需要對縮放、位移和分辨率具有較高魯棒性的應用,研究結果表明有監督的ConvNeXt可能是最佳選擇。
研究人員發現,每種模型都有自己獨特的優勢。
這表明模型的選擇應該取決于目標用例,因為標準的性能指標可能會忽略關鍵任務特定的細微差別。
此外,許多現有的基準是從ImageNet派生出來的,這對評估有偏見。開發具有不同數據分布的新基準,對于在更具現實代表性的背景下評估模型至關重要。
ConvNet vs Transformer
- 在許多基準測試中,有監督的ConvNeXt比有監督的VIT具有更好的性能:它更好地校準,對數據轉換不變,表現出更好的可轉移性和健壯性。
- 在合成數據上,ConvNeXt的表現優于ViT。
- ViT有較高的形狀偏向。
Supervised vs CLIP
- 盡管CLIP模型在可轉移性方面更好,但監督的ConvNeXt在這項任務上表現出了競爭力。這展示了有監督的模型的潛力。
- 監督模型更擅長穩健性基準,這可能是因為這些模型是ImageNet的變體。
- CLIP模型具有較高的形狀偏差,與其ImageNet精度相比,分類錯誤較少。