谷歌、MIT提出統一框架MAGE：表征學習超MAE，無監督圖像生成超越 Latent Diffusion

作者：機器之心 2023-03-09 14:04:00

在一篇 CVPR 2023 論文中，來自 MIT 和谷歌的研究人員提出了一種全新的框架MAGE，同時在圖像識別和生成兩大任務上實現了 SOTA。

識別和生成是人工智能領域中的兩大核心任務，如果能將二者合并到一個統一的系統中，這兩個任務應該能實現互補。事實上，在自然語言處理中，像 BERT [1] 這樣的模型不僅能夠生成高質量的文本，還能夠提取文本中的特征。

然而，在計算機視覺領域，目前的圖像生成模型和識別模型大多是分開進行訓練，沒有充分利用這兩個任務的協同作用。這主要是由于圖像生成和圖像識別的模型通常具有本質上的結構差異：圖像生成的輸入是低維度的特征或噪聲，而輸出是高維度的原始圖像；與之相反，圖像識別的輸入是高維度的原始圖像，而輸出是低維度的特征。

最近，來自 MIT 和 Google Research 的研究人員提出了一種基于圖像語義符掩碼的表征學習方法，首次在一個統一的框架中實現了圖像生成和表征學習，并在多個數據集上取得了 SOTA 表現。研究論文已被 CVPR 2023 接收，相關代碼與預訓練模型已開源。

論文地址：https://arxiv.org/abs/2211.09117
代碼地址：https://github.com/LTH14/mage

在 CVPR 2022 上，MAE [2] 提出了一種基于圖像掩碼（MIM）的表征學習方法，并在多個子任務上取得了非常好的效果。在高達 75% 的掩碼率下，MAE 可以重構出與原圖語義十分貼合的圖像，并借此讓網絡能夠自監督地學習圖像中的特征。然而，如圖 1 所示， MAE 重建的圖像雖然具有與原始圖像相似的語義信息，但會出現嚴重的模糊與失真問題。類似的問題也出現在所有基于 MIM 的表征學習方法中。同時，目前的生成模型，不管是擴散模型還是 GAN，都缺乏提取高質量圖像特征的能力。

圖 1：MAE 與 MAGE 重構對比

方法概述

針對上述問題，本文作者提出了 MAGE（Masked Generative Encoder），首次實現了統一的圖像生成和特征提取模型。與MIM直接作用于圖像的掩碼方法不同，MAGE 提出了基于圖像語義符的 masked image token modeling 方法。如圖所示，MAGE 首先使用 VQGAN [3] 編碼器將原始圖像轉換為離散的語義符。之后，MAGE 對其進行隨機掩碼，并使用基于 transformer 的 encoder-decoder 結構對掩碼進行重構，重構后的語義符可以通過 VQGAN 解碼器生成原始圖像。通過在訓練中使用不同的掩碼率，MAGE 可以同時進行生成模型（接近 100% 掩碼率）和表征學習（50%-80% 掩碼率）的訓練。如圖 1 所示，MAGE 重建出的圖像不僅具有與原始圖像一致的語義信息，還能夠同時保證生成圖像的多樣性與真實性。