基于分層自監督學習將視覺Transformer擴展到千兆像素圖像
本文經計算機視覺研究院公眾號授權轉載,轉載請聯系出處。
Vision Transformers (ViT) 及其多尺度和分層變體已成功地捕獲圖像表示,但它們的使用通常被研究用于低分辨率圖像(例如256×256、384×384)。
1 概括
對于計算病理學中的千兆像素全玻片成像 (WSI),WSI在20倍放大倍率下可大至150000×150000像素,并在不同分辨率下呈現視覺標記的層次結構:從捕獲單個細胞的16×16圖像到4096×4096圖像表征組織微環境內的相互作用。
研究者引入了一種新的ViT架構,稱為分層圖像金字塔變換器 (HIPT),它利用WSI中固有的自然分層結構,使用兩個級別的自監督學習來學習高分辨率圖像表示。HIPT使用10,678千兆像素WSI、408,218 4096×4096圖像和104M 256×256圖像對33種癌癥類型進行了預訓練。在9個幻燈片級任務上對HIPT表示進行基準測試,并證明:
- 具有分層預訓練的HIPT優于當前非常先進的癌癥分型和生存預測方法;
2) 自監督ViT能夠對重要的歸納建模關于腫瘤微環境中表型的層次結構的偏見。
2 主要框架
整張幻燈片圖像(WSI)的層次結構。左邊:與自然圖像不同,由于WSI具有固定的比例,因此存在不同圖像分辨率的視覺標記的層次結構。右邊:除了將單個256×256圖像表示為256 [16×16]標記的序列外,還可以將這些256×256圖像視為4096中更大的、不相交的[256×256]標記序列的一部分4096×4096區域。
HIPT 架構
受在自然語言處理中使用分層表示的啟發,其中嵌入可以在字符、單詞、句子和段落級別聚合以形成文檔表示,在x16單元格、x256補丁、x4096區域級以形成幻燈片表示。為了在每個階段對視覺概念之間的重要依賴關系進行建模,將Transformer自注意力調整為置換等變聚合層。請注意,由于使用x256標記修補x4096區域的復雜性與使用x16標記修補x256圖像的復雜性相同,可以使用類似的自監督ViT技術為低分辨率圖像預訓練高分辨率圖像的聚合層。
Multi-Head Self-Attention Visualization of SelfSupervised ViTs
對于浸潤性導管癌(IDC),展示了ViT256-16和ViT4096-256的自監督可視化,分別在x256和x4096區域上進行了預訓練。對于x256補丁,ViT256-16能夠描繪x16 tokens中的基質、細胞和“空白”存在。對于x4096區域,ViT4096-256描繪了粗粒度的形態特征,例如腫瘤巢及其周圍的促纖維增生(松散)基質。
3 實驗
HIPT中的Hierarchical Attention Maps
ViT256-16 DINO Pretraining
Hierarchical Attention Maps for Colorectal Cancer (CRC)