Meta新研究挑戰CV領域基操：ViT根本不用patch，用像素做token效果更佳

作者：新智元 2024-07-09 13:06:52

下一代視覺模型會摒棄patch嗎？Meta AI最近發表的一篇論文就質疑了視覺模型中局部關系的必要性。他們提出了PiT架構，讓Transformer直接學習單個像素而不是16×16的patch，結果在多個下游任務中取得了全面超越ViT模型的性能。

正如token是文本處理的基本單位，patch也被默認是計算機視覺領域處理圖像的基本單位。

從CNN誕生，到結合Transformer架構的ViT，雖然模型架構發生了很大的變化，但有一點始終一致——

研究人員們都會把原始圖像先進行切割，模型輸入以patch作為基本單位。

這種預處理方法非常有效，因此有廣泛的影響力，幾乎主導了整個CV領域。甚至于，Sora等視頻生成模型也沿用了這種方法。

Sora技術報告，訓練時將視覺數據切割為patch

然而，Meta AI和阿姆斯特丹大學最近聯合發表了一篇文章，對這個CV領域的「基操」提出了有理有據的質疑：圖像切成patch，真的有必要嗎？

https://arxiv.org/abs/2406.09415

首先我們可以做一個思維實驗，將圖片切成patch，究竟會對模型的哪方面造成影響？

論文作者提出，將整個圖像切割為patch再輸入，實質上會為模型引入一種「歸納偏差」（inductive bias），其背后依據的是局部性假設：與距離較遠的像素相比，相鄰像素更相關，能提供更多信息。

然而，回顧近年來的深度學習革命，我們似乎一直在通過減少歸納偏差取得進步。

比如，從前的研究人員會手動選擇特征，現在則是讓神經網絡從數據中自行學習特征。

不僅是數據，模型架構方面也是如此。CNN的核心是不同大小的卷積核，極其擅長提取圖像中的空間層次結構。

在分層學習的過程中，卷積網絡先提取邊緣、顏色、紋理等低級特征，在此基礎上，隨后提取出更加抽象、復雜的特征表達，比如面部表情、物體類別等等。

CNN這種對圖像特征的空間層次結構的假定，也是另一種形式的歸納偏差。相比之下，Transformer架構則擺脫了這種先驗假設，選擇用簡單的架構對多個尺度進行建模。

作者認為，減少歸納偏差不僅能讓模型泛化到更多任務上，還可以促進不同模態數據之間的更大統一，這也是為什么Transformer架構能從處理自然語言逐漸擴展到圖像、視頻、代碼、點云等不同領域。

因此，一個自然的問題出現了：我們能否消除ViT架構中剩余的歸納偏差，即局部性假設，從而實現性能提升？

由此，論文提出了PiT架構，引入關于圖像的2D網格結構的「零先驗」，將每個單獨的像素作為模型輸入的token（而不是patch），并加上位置編碼。

令人驚訝的結果出現了，模型不但沒有表現出訓練不收斂或性能退化，反而在下游任務上展現出比ViT更強的性能。

局部性歸納偏差

想要消除模型的局部性偏差，首先要弄清CNN和ViT架構分別在哪部分、用什么方式引入了局部性假設。

在卷積網絡中，局部性偏差反映在網絡每層計算的特征的感受域中，卷積和池化操作都是局部偏置的。

比如，第一層卷積的感受域通常僅對應于一個小的局部窗口。隨著網絡變深，該區域逐漸擴展，但窗口仍然是局部的，并且仍以某個像素位置為中心。

那么ViT呢？

乍一看，ViT和文本模型中所用的Transfomer類模型一樣，都是無局部性的。

因為大多數Transformer中的操作要么是在全局范圍內（如自注意力），要么純粹是在每個單獨的token上（比如MLP）。

然而，作者發現，ViT中的兩種設計依然會引入局部性歸納偏差：將圖像切割成patch，以及位置編碼。

將圖像切割為16×16大小的patch并將其作為基本操作單元，意味著patch內部和patch之間的計算量截然不同。

各個patch之間會進行多次自注意力操作，但patch內部256個像素被編碼為同一個token，始終「綁定」在一起。雖然第一個自注意力塊之后會將感受域擴展至全局，但patch化過程已經引入了這種鄰域的歸納偏差，「覆水難收」。

位置編碼的情況則更復雜一些。如果是可學習的位置編碼，則沒有引入局部性假設，但實際上CV領域更常用的是絕對位置編碼，比如2D sin-cos函數。

PE(x,y,2i) = sin(x/10000^(4i/D))
PE(x,y,2i+1) = cos(x/10000^(4i/D))
PE(x,y,2j+D/2) = sin(y/10000^(4j/D))
PE(x,y,2j+1+D/2) = cos(y/10000^(4j/D))

Where:
(x,y) is a point in 2d space
i,j is an integer in [0, D/4), where D is the size of the ch dimension

https://github.com/tatp22/multidim-positional-encoding

由于sin-cos函數的平滑特點，它們也往往會引入局部性偏差，即位置相近的token在編碼空間中也會更相似。