人大高瓴人工智能學院Nature子刊：嘗試利用多模態基礎模型邁向通用人工智能

作者：機器之心 2022-06-16 16:19:12

我們開發了一個名為 BriVL 的大規模多模態基礎模型，該模型在 6.5 億的弱語義相關圖文上進行了訓練。

最近，中國人民大學高瓴人工智能學院盧志武教授、孫浩長聘副教授、以及院長文繼榮教授作為共同通訊作者在國際綜合期刊《自然·通訊》（英文名：Nature Communications，簡稱Nat Commun）上發表題為「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究論文，文章第一作者為博士生費楠益。該工作嘗試利用多模態基礎模型邁向通用人工智能，并將對各種 AI + 領域（如神經科學和醫療健康）產生廣泛的影響。本文是這篇論文的解讀。

論文鏈接：https://www.nature.com/articles/s41467-022-30761-2
代碼鏈接：https://github.com/neilfei/brivl-nmi

人工智能的基本目標是模仿人類的核心認知活動，如感知、記憶、推理等。雖然許多人工智能算法或模型在各個研究領域都取得了巨大的成功，但是受限于大量標注數據的獲取或是沒有足夠的計算資源支撐在大規模數據上的訓練，大多數的人工智能研究還是只局限于單個認知能力的習得。

為了克服這些局限并向通用人工智能邁出一步，我們以人類大腦處理多模態信息為靈感（如圖 1a），開發了一個多模態（視覺語言）基礎模型，也即預訓練模型。此外，為了讓模型獲得強大的泛化能力，我們提出訓練數據中的圖片與文本應遵循弱語義相關假設（如圖 1b），而不是圖片區域與單詞的精細匹配（強語義相關），因為強語義相關假設將導致模型丟失人們在為圖片配文時暗含的復雜情感和思考。

?圖 1：基于弱語義相關假設的 BriVL 模型。a. 我們的 BriVL 模型和人腦在處理視覺語言信息上的對比。b. 建模弱語義相關數據和建模強語義相關數據的對比。

通過在爬取自互聯網的大規模圖文對數據上進行訓練，我們得到的多模態基礎模型展現出強大的泛化能力和想象能力。我們相信，我們的工作向通用人工智能邁出了重要的一步（雖然可能很小），并將對各種 AI + 領域（如神經科學和醫療健康）產生廣泛的影響。

方法

我們開發了一個大規模多模態基礎模型在海量的多模態數據上進行自監督訓練，并把它取名為 BriVL（Bridging-Vision-and-Language）。

首先，我們使用了一個從互聯網構建的大規模多源圖文數據集，稱為弱語義相關數據集（WSCD）。WSCD 收集了來自網絡上多個來源的中文圖像文本對，包括新聞、百科和社交媒體。我們只過濾掉了 WSCD 中的色情和敏感數據，沒有對原始數據進行任何形式的編輯和修改，以保持其自然的數據分布。總的來說，WSCD 有大約 6.5 億個圖文對，覆蓋了許多主題，如體育、日常生活和電影。

其次，對于我們的網絡架構，由于圖像和文本之間不一定存在細粒度的區域單詞匹配，我們丟掉了耗時的目標檢測器，采用簡單的雙塔架構，因此能夠通過兩個獨立的編碼器對圖像和文本輸入進行編碼（如圖 2）。雙塔結構在推理過程中具有明顯的效率優勢，因為候選集的特征可以在查詢前計算和索引，滿足現實世界應用的實時要求。第三，隨著大規模分布式訓練技術和自監督學習的發展，用海量的未標注的多模態數據訓練模型成為可能。

具體來說，為了對圖文對的弱相關性進行建模，并學習一個統一的語義空間，我們基于單模態對比學習方法 MoCo 設計了一個跨模態對比學習算法。如圖 2 所示，我們的 BriVL 模型使用了 momentum 機制，用來在不同的訓練批次中動態維護負樣本隊列。通過這種方式，我們會有一個比較大的負樣本數量（對對比學習至關重要），同時使用一個相對較小的 batch 大小以減少 GPU 的內存占用（即 GPU 資源節約）。

?圖 2：用于大規模多模態預訓練的 BriVL 模型示意圖。

主要結果

神經網絡可視化

當我們聽到文字或描述性的句子時，腦海中就會出現一些場景。那對于我們的 BriVL，它在如此大量的弱相關圖文對上進行預訓練以后，我們就很好奇當給出文本時，它會想象到什么。

具體來說，我們首先輸入一段文本，通過 BriVL 的文本編碼器獲得其文本嵌入。然后我們隨機初始化一個噪聲圖像，并通過圖像編碼器得到其特征嵌入。由于輸入的圖像是隨機初始化的，它的特征與輸入文本的特征必定不一致。因此，我們定義了匹配兩個特征嵌入的目標，并通過反向傳播來更新輸入圖像。最終得到的圖像便能清楚地展示 BriVL 對輸入文本的想象。這里我們不使用任何額外的模塊或數據，預訓練好的 BriVL 也在整個可視化過程中被凍結。

我們首先介紹 BriVL 對一些高級語義概念的想象能力（如圖 3）。可以看到，盡管這些概念非常抽象，但可視化還是能夠顯示出它們的具體形態（例如，“自然”：像草一樣的植物；“時間”：鐘表；“科學”：一張戴著眼鏡的臉和一個錐形瓶；“夢境”：云，一座通往門的橋，以及夢境般的氛圍）。這種將抽象概念概括為一系列具體物體的能力表明了我們的多模態預訓練只使用弱語義相關數據的有效性。

?圖 3：BriVL 模型對抽象概念的想象。

在圖 4 中，我們展示了 BriVL 對句子的想象力。BriVL 對 “烏云背后有陽光” 的想象不僅從字面上體現了烏云背后的陽光，而且似乎還顯示出海上的危險情況（左邊有船一樣的物體和波浪），表達了這句話的隱含意思。在 “生如夏花” 的可視化中，我們可以看到一個花叢。接下來的兩個場景更復雜的文本輸入都來自中國古詩，其語法也與訓練集中的絕大多數文本完全不同。看起來 BriVL 也能很好地理解它們：對于“竹外桃花三兩枝”，我們可以看到有竹子和粉紅色的花；對于“白日依山盡，黃河入海流”，我們可以看到山上的樹木遮掩著夕陽，前面河流上有一艘小船。總的來說，我們發現即使在復雜句子的提示下，BriVL 依然具有很強的想象能力。

?圖 4：BriVL 模型對中文句子的想象。

在圖 5 中，幾個類似的文本被用于 BriVL 的神經網絡可視化。對于“有森林的山脈”，圖像中有更多的綠色區域；對于“有石頭的山脈”，圖像中有更多的巖石；對于“有雪的山脈”，中間樹木周圍的地面都是白色或藍色；對于“有瀑布的山脈”，可以看到藍色的水落下來，甚至還有一些水蒸汽。這些可視化結果證明了 BriVL 能對山脈的修飾詞進行準確的理解和想象。

?圖 5：BriVL 模型對 “有… 的山脈” 的想象。

文生成圖

神經網絡可視化非常直接，但有時會很難解釋。因此我們開發了另一種可視化 / 可解釋性方法，使 BriVL 的想象內容可以更好地被我們人類理解。具體來說，我們利用 VQGAN 在 BriVL 的指導下來生成圖像，因為在 ImageNet 數據集上預訓練的 VQGAN 非常善于生成逼真的圖像。我們首先隨機得到一個 token 序列，并從預訓練好的 VQGAN 中獲得一個生成圖像。接著，我們將生成的圖像輸入到 BriVL 的圖像編碼器中，同時將一段文本輸入到文本編碼器中。最后，我們定義圖像和文本嵌入之間需要匹配的目標，并通過反向傳播來更新初始的 token 序列。與神經網絡可視化一樣，VQGAN 和 BriVL 在生成過程中都被凍結。為了比較，我們還展示了 OpenAI 的 CLIP 模型代替 BriVL 來生成的圖像。

我們首先選擇了四個文本輸入，分別在圖 6 和圖 7 展示了 CLIP 和我們 BriVL 的文生成圖結果。CLIP 和 BriVL 都能很好地理解文本，然而我們也觀察到兩個主要的差異。第一，卡通風格的元素會在 CLIP 生成的圖像中出現，而 BriVL 生成的圖像則更加真實和自然。第二，CLIP 傾向于簡單地把元素放在一起，而 BriVL 生成的圖像在全局上更加統一。第一個差異可能是由于 CLIP 和 BriVL 使用的訓練數據不同。我們訓練數據中的圖像是從互聯網上抓取的（大部分是真實的照片），而在 CLIP 的訓練數據中可能有一定數量的卡通圖像。第二個區別可能是由于 CLIP 使用的圖文對具有很強的語義相關性（通過單詞過濾），而我們使用的則是弱相關數據。這意味著在多模態預訓練期間，CLIP 更有可能學到具體物體和單詞 / 詞組之間的對應關系，而 BriVL 則試圖將每張圖像與給定的文本作為一個整體來理解。

?圖 6：CLIP（w/ ResNet-50x4）借助 VQGAN 實現文生成圖的例子。

?圖 7：我們的 BriVL 借助 VQGAN 實現文生成圖的例子。

我們還考慮了一個更具挑戰性的任務，即根據多個連貫的句子來生成一系列的圖像。如圖 8 所示，雖然每張圖片都是獨立生成的，但我們可以看到，四張圖片在視覺上是連貫的，風格也是一樣的。這表明了 BriVL 模型的另一個優勢：盡管圖像中的環境和背景很難在相關文本中明確提及，但在我們的大規模多模態預訓練中，它們并沒有被忽略。

?圖 8：我們的 BriVL 借助 VQGAN 進行一系列連貫內容生成的例子。

在圖 9 中，我們選擇了一些人類很少見到的概念 / 場景（如 “熊熊燃燒的大海” 和“發光的森林”），甚至是那些在現實生活中不存在的概念 / 場景（如 “賽博朋克風格的城市” 和“云端的城堡”）。這證明了 BriVL 的優越性能不是來自于對預訓練數據的過擬合，因為這里輸入的概念 / 場景在現實生活中甚至不存在（當然極大可能就不在預訓練數據集中）。此外，這些生成的例子再次驗證了在弱語義相關數據上預訓練 BriVL 的優勢（因為細粒度的區域單詞對齊會損害 BriVL 的想象能力）。

?圖 9：更多 BriVL 的文生成圖結果，其中的概念 / 場景都是人類不常看到甚至是現實生活中不存在的。

此外，我們還將 BriVL 應用于遙感圖像零樣本分類、中文新聞零樣本分類、視覺問答等多個下游任務，均取得一些有意思的結果，具體請見我們的論文原文。

結論與討論

我們開發了一個名為 BriVL 的大規模多模態基礎模型，該模型在 6.5 億的弱語義相關圖文上進行了訓練。我們通過神經網絡可視化和文生成圖直觀展示了對齊的圖文嵌入空間。此外，在其他下游任務上的實驗也顯示了 BriVL 的跨領域學習 / 遷移能力以及多模態學習相對于單模態學習的優勢。特別地，我們發現 BriVL 似乎獲得了一定地想象和推理能力。我們相信這些優勢主要來自于 BriVL 所遵循的弱語義相關假設。也就是說，通過挖掘弱相關圖文對中復雜的人類情感和思想，我們的 BriVL 變得更加具有認知性。

我們相信，我們向通用人工智能邁出的這一步，不僅會對人工智能領域本身產生廣泛的影響，也會對各個 AI + 領域產生影響。對于人工智能的研究，基于我們 GPU 資源節約型的多模態預訓練框架，研究人員可以很容易地將 BriVL 擴展到更大的量級和更多的模態，以得到更通用的基礎模型。在大規模多模態基礎模型的幫助下，研究人員也更容易探索新的任務（尤其是那些沒有足夠人類標注的樣本）。對于 AI + 領域，由于其強大的泛化能力，基礎模型可以快速適應特定的工作環境。例如，在醫療保健領域，多模態基礎模型可以充分利用病例的多模態數據來提高診斷的準確性；在神經科學領域，多模態基礎模型甚至可能可以幫助找出多模態信息如何在人腦中融合的機制，因為人工神經網絡比人類大腦中的真實神經系統更容易研究。

盡管如此，多模態基礎模型仍然面臨著一些風險和挑戰。基礎模型可能會學到對某些事情的偏見和成見，這些問題應該在模型訓練前仔細處理，并在下游應用中進行監控和解決。此外，隨著基礎模型掌握越來越多的能力，也要小心它被心懷不軌的人濫用，避免對社會產生負面影響。此外，在基礎模型地未來研究上，也存在一些挑戰：如何開發更深入的模型可解釋性工具，如何用更多的模態構建預訓練數據集，以及如何用更有效的微調技術將基礎模型應用于各個下游任務。

本篇論文作者為：費楠益、盧志武、高一釗、楊國興、霍宇琦、溫靜遠、盧浩宇、宋睿華、高欣、向滔、孫浩、文繼榮；共同通訊作者為人大高瓴人工智能學院盧志武教授、孫浩長聘副教授、文繼榮教授。論文發表于國際綜合期刊《自然 · 通訊》（英文名：Nature Communications，簡稱 Nat Commun）。本篇論文由費楠益解讀。

責任編輯：張燕妮來源：機器之心Pro

模型神經網絡

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人大高瓴人工智能學院Nature子刊：嘗試利用多模態基礎模型邁向通用人工智能

方法

主要結果

神經網絡可視化

文生成圖

結論與討論