學習視覺和語言的多粒度對齊？字節提出新多模態預訓練方法 X-VLM：代碼已開源！

作者：讓你更懂AI 2022-02-28 10:31:22

在本文中，字節跳動人工智能實驗室提出了 X-VLM，以統一的方法學習多粒度的視覺和語言對齊，不依賴目標檢測方法且不局限于學習圖片級別或物體級別的對齊。

?寫在前面

視覺語言預訓練提高了許多視覺語言任務的性能。但是，現有的多數預訓練方法依賴目標檢測器（object detectors）提取基于物體的視覺特征，以此學習細粒度的視覺和語言對齊，例如物體（object）級別。然而，這種方法存在識別視覺概念有限、圖像編碼上下文信息丟失和計算效率低下的問題。

在本文中，字節跳動人工智能實驗室提出了 X-VLM，以統一的方法學習多粒度的視覺和語言對齊，不依賴目標檢測方法且不局限于學習圖片級別或物體級別的對齊。該方法在廣泛的視覺語言任務上獲得了最先進的結果，例如：圖像文本檢索（image-text retrieval）、視覺問答（VQA）、視覺推理（NLVR）、視覺定位（visual grounding）、圖片描述生成（image captioning）。

論文標題：

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

論文鏈接：

https://arxiv.org/abs/2111.08276

代碼鏈接：

https://github.com/zengyan-97/X-VLM

研究背景

▲ 圖1：現有兩類的方法（a, b）和X-VLM（c）

現有的多模態預訓練模型大致分為兩類：1）依賴目標檢測器提取基于物體的視覺特征，以此學習細粒度的視覺和語言對齊，如圖 1 中（a）。這些方法要么直接利用預先訓練的目標檢測器，要么將目標檢測過程合并到多模態預訓練中；2）用 CNN 或者視覺 Transformer 編碼整張圖片，直接學習文本和圖片特征之間的粗粒度對齊，如圖 1（b）。

這兩種方法都存在問題。首先，基于目標檢測的方法會識別圖片中所有可能的物體，其中不乏一些與配對文本無關的。此外，這種方法所提取的基于物體的視覺特征可能會丟失物體之間的信息（可以認為是一種上下文信息）。而且，我們也很難預先定義需要識別的物體種類。而第二種方法則較難學習到細粒度的視覺和語言對齊，例如：物體級別的對齊。這種細粒度的對齊關系被之前的工作證實對于視覺推理（visual reasoning）和視覺定位（visual grounding）任務很有幫助。

實際上，對于多模態預訓練，有以下公開數據以供模型訓練：1）圖片和圖片標題；2）區域標注，例如：圖 1 中的文本“man crossing the street”關聯到了圖片中的某個具體區域。然而，之前的工作卻粗略地將區域標注與整張圖片對齊；3）物體標簽，例如“backpack”，這些標簽被之前的工作用來訓練目標檢測器。

與之前的做法不同，本文中作者提出 X-VLM，以統一的方式利用上述數據學習多粒度的視覺和語言對齊，而不依賴目標檢測方法且不局限于學習圖像級別或物體級別的對齊。作者提出學習多粒度視覺和語言對齊的關鍵在于，如圖 1（c）所示：1）給出文本，定位圖片中的視覺概念，以邊界框的回歸損失和交并比損失優化；2）同時拉齊文本和對應的視覺概念，通過常用的對比學習損失，匹配損失，MLM 損失優化。實驗證明，X-VLM 能在下游任務中有效利用預訓練時學到的多粒度視覺和語言對齊，在多種視覺語言任務上獲得非常優秀的表現。

方法

▲ 圖2：X-VLM框架

X-VLM 由一個圖像編碼器，一個文本編碼器，一個跨模態編碼器組成。

圖 2 左側給出了視覺概念 V（可以是物體/區域/圖片）的編碼過程：該圖像編碼器采用視覺 Transformer，將輸入圖片分成 patches 編碼。然后，給出任意一個邊界框，簡單地通過取框中所有 patch 表示的平均值獲得區域的全局表示。

再將該全局表示和原本框中所有的 patch 表示按照原本順序整理成序列，作為該邊界框所對應的視覺概念的表示。通過這樣的方式獲得圖片本身（）和圖片中視覺概念（，，，）的編碼。與視覺概念對應的文本，則通過文本編碼器一一編碼獲得，例如圖片標題、區域描述、物體標簽。

X-VLM 采用常見的模型結構，其不同之處在于預訓練的方法。作者通過以下兩類損失進行優化：

第一，給出文本，例如：（text）、（text1）、（text2）、（text3），預測圖片中的對應視覺概念的邊界框：

是跨模態編碼器在 [CLS] 位置的輸出向量。Sigmoid 函數是為了標準化。Ground-truth 對應了（），依次是標準化后的的中心橫坐標、中心縱坐標、寬、高。最后，該損失是邊界框的 GIoU 損失和 L1 損失之和。作者認為在同一張圖片中，給不同文字，要求模型預測出對應的視覺概念，能使模型更有效地學習到多粒度的視覺語言對齊。該損失也是首次被使用在多模態預訓練中。

第二，同時優化模型去拉齊文本和對應的視覺概念，包括了物體/區域/圖片與文本的對齊。作者使用多模態預訓練中常見的三個損失優化，依次是：

1）對比學習損失：