威大哥大等聯(lián)合發(fā)文！最新多模態(tài)大模型LLaVA問世，水平直逼GPT-4

作者：新智元 2023-04-28 15:27:06

人工智能新聞

微軟&哥大聯(lián)合發(fā)表視覺指令微調(diào)論文，LLaVA出爐！

視覺指令微調(diào)火了。

這篇論文名為Visual Instruction Tuning，由威斯康星大學(xué)麥迪遜分校，微軟研究院和哥倫比亞大學(xué)共同出品。

作者包括Haotian Liu，Chunyuan Li，Qingyang Wu和Yong Jae Lee。

同時，研究人員也在GitHub上開源了他們的代碼、模型和數(shù)據(jù)集。論文也發(fā)布在了Arxiv上。

講解

那么LLaVA的功能究竟是什么呢？如果一頭扎進論文，不熟悉的朋友可能會有些陌生。

我們先看看LLaVA自己怎么說。

以上回答生成自LLaVA的Chatbot，我輸入的問題是，LLaVA的功能是什么，用戶該如何利用它？

回答如下：

LLaVA是一個大語言和視覺助手，在UW Madison WAIV實驗室經(jīng)受的訓(xùn)練。LLaVA被設(shè)計出來的目的，就是幫助用戶處理各類任務(wù)，方法則是借助自然語言理解的能力和視覺內(nèi)容分析的能力。

LLaVA的主要功能包括：

· 以文本為基礎(chǔ)的任務(wù)：LLaVA可以處理并分析文本，允許用戶問問題，LLaVA可以和用戶交談，或者完成用戶輸入的任務(wù)，比如說提煉文件概要，情感分析，實體識別等等。

· 以圖像為基礎(chǔ)的任務(wù)：LLaVA可以分析圖像，描述圖像，進行物體識別，分析理解場景。

用戶如果想更好地應(yīng)用LLaVA，可以直接和LLaVA進行交談，就像和人類之間對話一樣。盡可能多的提供細節(jié)，LLaVA就會生成出一個更完善的答案。

同時應(yīng)該記住，說到底LLaVA是一個機器學(xué)習(xí)模型，是一個AI工具。只要是工具，就有其限制。LLaVA不一定每一次都能完美地回答用戶輸入的問題。

當然，LLaVA也在不斷學(xué)習(xí)和完善，其功能也會越來越強大。

總的來說，從LLaVA的回答中可以看出，在Chatbot這方面，和GPT的功能差不了太多。但是LLaVA可以處理一些有關(guān)圖像的任務(wù)。

表現(xiàn)出彩

研究人員在Arxiv的論文中詳細介紹了LLaVA的技術(shù)細節(jié)。

要知道使用機器生成的指令跟隨數(shù)據(jù)對大型語言模型（LLMs）進行指令微調(diào)，提高了新任務(wù)的零點能力，但這個想法在多模態(tài)領(lǐng)域的探索較少。

在論文中，研究人員首次嘗試使用僅有語言的GPT-4來生成多模態(tài)語言圖像的指令跟隨數(shù)據(jù)。

通過對這種生成的數(shù)據(jù)進行指令調(diào)整，研究人員引入了LLaVA：這是一個大型語言和視覺助手，是一個端到端的訓(xùn)練有素的大型多模態(tài)模型，它連接了一個視覺編碼器和LLM，用于通用的視覺和語言理解。

早期實驗表明，LLaVA展示了令人印象深刻的多模態(tài)聊天能力，有時在未見過的圖像/指令上都能輸出多模態(tài)GPT-4的表現(xiàn)，在合成的多模態(tài)指令跟隨數(shù)據(jù)集上與GPT-4相比，獲得了85.1%的相對分數(shù)。

當對Science雜志進行微調(diào)時，LLaVA和GPT-4的協(xié)同作用達到了92.53%的新的最先進的準確性。

研究人員公開了GPT-4生成的視覺指令調(diào)整的數(shù)據(jù)、模型和代碼庫。

多模態(tài)模型

首先厘清定義。

大型多模態(tài)模型指的就是一種基于機器學(xué)習(xí)技術(shù)的模型，能夠處理和分析多種輸入類型，如文本和圖像。

這些模型設(shè)計用于處理更廣泛的任務(wù)，并且能夠理解不同形式的數(shù)據(jù)。通過將文本和圖像作為輸入，這些模型可以提高理解和編解釋的能力，從而生成更準確和相關(guān)的回答。

人類通過視覺和語言等多種渠道與世界互動，因為每個單獨的渠道在代表和傳達某些世界概念方面都有獨特的優(yōu)勢，從而有利于更好地理解世界。

而人工智能的核心愿望之一是開發(fā)一個通用的助手，能夠有效地遵循多模態(tài)的視覺和語言指令，與人類的意圖一致，完成各種真實世界的任務(wù)。

因此，開發(fā)者社區(qū)見證了對開發(fā)語言增強的基礎(chǔ)視覺模型的新興趣，在開放世界的視覺理解方面具有強大的能力，如分類、檢測、分割、描述，以及視覺生成和編輯。

在這些功能中，每個任務(wù)都由一個單一的大型視覺模型獨立解決，在模型設(shè)計中隱含考慮了任務(wù)指令。

此外，語言只被用來描述圖像內(nèi)容。雖然這允許語言在將視覺信號映射到語言語義方面發(fā)揮重要作用——這是人類交流的常見渠道。但這會導(dǎo)致模型通常具有固定的界面，互動性和對用戶指令的適應(yīng)性有限。

而大型語言模型（LLM）表明，語言可以發(fā)揮更廣泛的作用：通用助手的通用界面，各種任務(wù)指令可以明確地用語言表示，并引導(dǎo)端到端訓(xùn)練有素的神經(jīng)助手切換到感興趣的任務(wù)來解決它。

例如，最近ChatGPT和GPT-4的成功，證明了這種LLM在遵循人類指令方面的能力，并激發(fā)了人們對開發(fā)開源LLM的巨大興趣。

LLaMA就是一個開源的LLM，其性能與GPT-3相當。正在進行的工作利用各種機器生成的高質(zhì)量指令跟隨樣本來提高LLM的對齊能力，與專有LLM相比，報告了令人印象深刻的性能。重要的是，這一行的工作是純文本的。

在本文中，研究人員提出了視覺指令調(diào)整，這是將指令調(diào)整擴展到多模態(tài)空間的首次嘗試，它為建立一個通用的視覺助手鋪平了道路。具體來說，論文的主要內(nèi)容包括：

多模態(tài)的指令跟隨數(shù)據(jù)。一個關(guān)鍵的挑戰(zhàn)是缺乏視覺語言指令-跟隨數(shù)據(jù)。我們提出了一個數(shù)據(jù)改革的觀點和管道，使用ChatGPT/GPT-4將圖像-文本對轉(zhuǎn)換為適當?shù)闹噶?跟隨格式。

大型多模態(tài)模型。研究人員開發(fā)了一個大型多模態(tài)模型（LMM），通過連接CLIP的開放集視覺編碼器和語言解碼器LaMA，并在生成的教學(xué)視覺——語言數(shù)據(jù)上對它們進行端到端的微調(diào)。實證研究驗證了使用生成的數(shù)據(jù)進行LMM指令調(diào)諧的有效性，并為建立一個通用的指令跟隨的視覺代理提出了實用的建議。通過GPT 4，研究小組在Science QA多模態(tài)推理數(shù)據(jù)集上取得了最先進的性能。

開源。研究小組向公眾發(fā)開了以下內(nèi)容：生成的多模態(tài)指令數(shù)據(jù)、用于數(shù)據(jù)生成和模型訓(xùn)練的代碼庫、模型檢查點，以及一個視覺聊天演示。

成果展示

可以看到，LLaVA能處理各類問題，且生成的回答既全面又富有邏輯。

LLaVA表現(xiàn)出一些接近GPT-4水平的多模態(tài)能力，在視覺聊天方面，GPT-4相對評分85%。

而在推理問答方面，LLaVA甚至達到了新SoTA——92.53%，擊敗多模態(tài)思維鏈。

責(zé)任編輯：張燕妮來源：新智元

微軟模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

威大哥大等聯(lián)合發(fā)文！最新多模態(tài)大模型LLaVA問世，水平直逼GPT-4

講解

表現(xiàn)出彩

多模態(tài)模型

成果展示