熔巖羊駝LLaVA來了：像GPT-4一樣可以看圖聊天，無需邀請碼，在線可玩

作者：機器之心 2023-04-24 09:23:27

盡管 LLaVA 是用一個小的多模態指令數據集訓練的，但它在一些示例上展示了與多模態模型 GPT-4 非常相似的推理結果。

GPT-4 的識圖能力什么時候能上線呢？這個問題目前依然沒有答案。

但研究社區已經等不及了，紛紛自己上手 DIY，其中最火的是一個名為 MiniGPT-4 的項目。MiniGPT-4 展示了許多類似于 GPT-4 的能力，例如生成詳細的圖像描述并從手寫草稿創建網站。此外，作者還觀察到 MiniGPT-4 的其他新興能力，包括根據給定的圖像創作故事和詩歌，提供解決圖像中顯示的問題的解決方案，根據食品照片教用戶如何烹飪等。該項目上線 3 天就拿到了近一萬的 Star 量。

今天要介紹的項目 ——LLaVA（Large Language and Vision Assistant）與之類似，是一個由威斯康星大學麥迪遜分校、微軟研究院和哥倫比亞大學研究者共同發布的多模態大模型。

論文鏈接：https://arxiv.org/pdf/2304.08485.pdf
項目鏈接：https://llava-vl.github.io/

該模型展示出了一些接近多模態 GPT-4 的圖文理解能力：相對于 GPT-4 獲得了 85.1% 的相對得分。當在科學問答（Science QA）上進行微調時，LLaVA 和 GPT-4 的協同作用實現了 92.53% 準確率的新 SoTA。

以下是機器之心的試用結果（更多結果見文末）：

論文概覽

人類通過視覺和語言等多種渠道與世界交互，因為不同的渠道在代表和傳達某些概念時都有各自獨特的優勢，多渠道的方式有利于更好地理解世界。人工智能的核心愿望之一是開發一個通用的助手，能夠有效地遵循多模態指令，例如視覺或語言的指令，滿足人類的意圖，在真實環境中完成各種任務。?

為此，社區興起了對開發基于語言增強的視覺模型的風潮。這類模型在開放世界視覺理解方面具有強大的能力，如分類、檢測、分割和圖文，以及視覺生成和視覺編輯能力。每個任務都由一個大型視覺模型獨立解決，在模型設計中隱含地考慮了任務的需求。此外，語言僅用于描述圖像內容。雖然這使得語言在將視覺信號映射到語言語義（人類交流的常見渠道）方面發揮了重要作用，但它導致模型通常具有固定的界面，在交互性和對用戶指令的適應性上存在限制。?

另一方面，大型語言模型（LLM）已經表明，語言可以發揮更廣泛的作用：作為通用智能助理的通用交互接口。在通用接口中，各種任務指令可以用語言明確表示，并引導端到端訓練的神經網絡助理切換模式來完成任務。例如，ChatGPT 和 GPT-4 最近的成功證明了 LLM 在遵循人類指令完成任務方面的能量，并掀起了開發開源 LLM 的熱潮。其中，LLaMA 是一種與 GPT-3 性能相近的開源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各種機器生成的高質量指令跟蹤樣本來提高 LLM 的對齊能力，與專有 LLM 相比，展示出了令人印象深刻的性能。但遺憾的是，這些模型的輸入僅為文本。?

在本文中，研究者提出了視覺 instruction-tuning 方法，首次嘗試將 instruction-tuning 擴展到多模態空間，為構建通用視覺助理鋪平了道路。

具體來說，本文做出了以下貢獻：

多模態指令數據。當下關鍵的挑戰之一是缺乏視覺與語言組成的指令數據。本文提出了一個數據重組方式，使用 ChatGPT/GPT-4 將圖像 - 文本對轉換為適當的指令格式；
大型多模態模型。研究者通過連接 CLIP 的開源視覺編碼器和語言解碼器 LLaMA，開發了一個大型多模態模型（LMM）—— LLaVA，并在生成的視覺 - 語言指令數據上進行端到端微調。實證研究驗證了將生成的數據用于 LMM 進行 instruction-tuning 的有效性，并為構建遵循視覺 agent 的通用指令提供了較為實用的技巧。使用 GPT-4，本文在 Science QA 這個多模態推理數據集上實現了最先進的性能。
開源。研究者向公眾發布了以下資產：生成的多模式指令數據、用于數據生成和模型訓練的代碼庫、模型檢查點和可視化聊天演示。

LLaVA 架構?

本文的主要目標是有效利用預訓練的 LLM 和視覺模型的功能。網絡架構如圖 1 所示。本文選擇 LLaMA 模型作為 LLM fφ（?），因為它的有效性已經在幾個開源的純語言 instruction-tuning 工作中得到了證明。

對于輸入圖像 X_v，本文使用預訓練的 CLIP 視覺編碼器 ViT-L/14 進行處理，得到視覺特征 Z_v=g (X_v)。實驗中使用的是最后一個 Transformer 層之前和之后的網格特征。本文使用一個簡單的線性層來將圖像特征連接到單詞嵌入空間中。具體而言，應用可訓練投影矩陣 W 將 Z_v 轉換為語言嵌入標記 H_q，H_q 具有與語言模型中的單詞嵌入空間相同的維度：

之后，得到一系列視覺標記 H_v。這種簡單投影方案具有輕量級、成本低等特點，能夠快速迭代以數據為中心的實驗。也可以考慮連接圖像和語言特征的更復雜（但昂貴）的方案，例如 Flamingo 中的門控交叉注意力機制和 BLIP-2 中的 Q-former，或者提供對象級特征的其他視覺編碼器，如 SAM。

實驗結果

多模態聊天機器人?

研究者開發了一個聊天機器人示例產品，以展示 LLaVA 的圖像理解和對話能力。為了進一步研究 LLaVA 如何處理視覺輸入，展現其處理指令的能力，研究者首先使用 GPT-4 原始論文中的示例，如表 4 和表 5 所示。使用的 prompt 需要貼合圖像內容。為了進行比較，本文引用了其論文中多模態模型 GPT-4 的 prompt 和結果。

令人驚訝的是，盡管 LLaVA 是用一個小的多模態指令數據集（約 80K 的不重復圖像）訓練的，但它在以上這兩個示例上展示了與多模態模型 GPT-4 非常相似的推理結果。請注意，這兩張圖像都不在 LLaVA 的數據集范圍內，LLaVA 能夠理解場景并按照問題說明進行回答。相比之下，BLIP-2 和 OpenFlamingo 專注于描述圖像，而不是按照用戶指令以適當的方式進行回答。更多示例如圖 3、圖 4 和圖 5 所示。

定量評估結果見表 3。

ScienceQA?

ScienceQA 包含 21k 個多模態多選問題，涉及 3 個主題、26 個話題、127 個類別和 379 種技能，具有豐富的領域多樣性。基準數據集分為訓練、驗證和測試部分，分別有 12726、4241 和 4241 個樣本。本文對比了兩種有代表性的方法，包括 GPT-3.5 模型（text-davinci-002）和沒有思維鏈（CoT）版本的 GPT-3.5 模型，LLaMA-Adapter，以及多模態思維鏈（MM-CoT）[57]，這是該數據集上當前的 SoTA 方法，結果如表 6 所示。