成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

熔巖羊駝LLaVA來了:像GPT-4一樣可以看圖聊天,無需邀請碼,在線可玩

人工智能 新聞
盡管 LLaVA 是用一個小的多模態指令數據集訓練的,但它在一些示例上展示了與多模態模型 GPT-4 非常相似的推理結果。

圖片

GPT-4 的識圖能力什么時候能上線呢?這個問題目前依然沒有答案。

但研究社區已經等不及了,紛紛自己上手 DIY,其中最火的是一個名為 MiniGPT-4 的項目。MiniGPT-4 展示了許多類似于 GPT-4 的能力,例如生成詳細的圖像描述并從手寫草稿創建網站。此外,作者還觀察到 MiniGPT-4 的其他新興能力,包括根據給定的圖像創作故事和詩歌,提供解決圖像中顯示的問題的解決方案,根據食品照片教用戶如何烹飪等。該項目上線 3 天就拿到了近一萬的 Star 量。

圖片

今天要介紹的項目 ——LLaVA(Large Language and Vision Assistant)與之類似,是一個由威斯康星大學麥迪遜分校、微軟研究院和哥倫比亞大學研究者共同發布的多模態大模型。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2304.08485.pdf
  • 項目鏈接:https://llava-vl.github.io/

該模型展示出了一些接近多模態 GPT-4 的圖文理解能力:相對于 GPT-4 獲得了 85.1% 的相對得分。當在科學問答(Science QA)上進行微調時,LLaVA 和 GPT-4 的協同作用實現了 92.53% 準確率的新 SoTA。

圖片

以下是機器之心的試用結果(更多結果見文末):

圖片

論文概覽

人類通過視覺和語言等多種渠道與世界交互,因為不同的渠道在代表和傳達某些概念時都有各自獨特的優勢,多渠道的方式有利于更好地理解世界。人工智能的核心愿望之一是開發一個通用的助手,能夠有效地遵循多模態指令,例如視覺或語言的指令,滿足人類的意圖,在真實環境中完成各種任務。?

為此,社區興起了對開發基于語言增強的視覺模型的風潮。這類模型在開放世界視覺理解方面具有強大的能力,如分類、檢測、分割和圖文,以及視覺生成和視覺編輯能力。每個任務都由一個大型視覺模型獨立解決,在模型設計中隱含地考慮了任務的需求。此外,語言僅用于描述圖像內容。雖然這使得語言在將視覺信號映射到語言語義(人類交流的常見渠道)方面發揮了重要作用,但它導致模型通常具有固定的界面,在交互性和對用戶指令的適應性上存在限制。?

另一方面,大型語言模型(LLM)已經表明,語言可以發揮更廣泛的作用:作為通用智能助理的通用交互接口。在通用接口中,各種任務指令可以用語言明確表示,并引導端到端訓練的神經網絡助理切換模式來完成任務。例如,ChatGPT 和 GPT-4 最近的成功證明了 LLM 在遵循人類指令完成任務方面的能量,并掀起了開發開源 LLM 的熱潮。其中,LLaMA 是一種與 GPT-3 性能相近的開源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各種機器生成的高質量指令跟蹤樣本來提高 LLM 的對齊能力,與專有 LLM 相比,展示出了令人印象深刻的性能。但遺憾的是,這些模型的輸入僅為文本。?

在本文中,研究者提出了視覺 instruction-tuning 方法,首次嘗試將 instruction-tuning 擴展到多模態空間,為構建通用視覺助理鋪平了道路。

具體來說,本文做出了以下貢獻:

  • 多模態指令數據。當下關鍵的挑戰之一是缺乏視覺與語言組成的指令數據。本文提出了一個數據重組方式,使用 ChatGPT/GPT-4 將圖像 - 文本對轉換為適當的指令格式;
  • 大型多模態模型。研究者通過連接 CLIP 的開源視覺編碼器和語言解碼器 LLaMA,開發了一個大型多模態模型(LMM)—— LLaVA,并在生成的視覺 - 語言指令數據上進行端到端微調。實證研究驗證了將生成的數據用于 LMM 進行 instruction-tuning 的有效性,并為構建遵循視覺 agent 的通用指令提供了較為實用的技巧。使用 GPT-4,本文在 Science QA 這個多模態推理數據集上實現了最先進的性能。
  • 開源。研究者向公眾發布了以下資產:生成的多模式指令數據、用于數據生成和模型訓練的代碼庫、模型檢查點和可視化聊天演示。

LLaVA 架構?

本文的主要目標是有效利用預訓練的 LLM 和視覺模型的功能。網絡架構如圖 1 所示。本文選擇 LLaMA 模型作為 LLM fφ(?),因為它的有效性已經在幾個開源的純語言 instruction-tuning 工作中得到了證明。

圖片

對于輸入圖像 X_v,本文使用預訓練的 CLIP 視覺編碼器 ViT-L/14 進行處理,得到視覺特征 Z_v=g (X_v)。實驗中使用的是最后一個 Transformer 層之前和之后的網格特征。本文使用一個簡單的線性層來將圖像特征連接到單詞嵌入空間中。具體而言,應用可訓練投影矩陣 W 將 Z_v 轉換為語言嵌入標記 H_q,H_q 具有與語言模型中的單詞嵌入空間相同的維度:

圖片

之后,得到一系列視覺標記 H_v。這種簡單投影方案具有輕量級、成本低等特點,能夠快速迭代以數據為中心的實驗。也可以考慮連接圖像和語言特征的更復雜(但昂貴)的方案,例如 Flamingo 中的門控交叉注意力機制和 BLIP-2 中的 Q-former,或者提供對象級特征的其他視覺編碼器,如 SAM。

實驗結果

多模態聊天機器人?

研究者開發了一個聊天機器人示例產品,以展示 LLaVA 的圖像理解和對話能力。為了進一步研究 LLaVA 如何處理視覺輸入,展現其處理指令的能力,研究者首先使用 GPT-4 原始論文中的示例,如表 4 和表 5 所示。使用的 prompt 需要貼合圖像內容。為了進行比較,本文引用了其論文中多模態模型 GPT-4 的 prompt 和結果。

圖片

圖片

令人驚訝的是,盡管 LLaVA 是用一個小的多模態指令數據集(約 80K 的不重復圖像)訓練的,但它在以上這兩個示例上展示了與多模態模型 GPT-4 非常相似的推理結果。請注意,這兩張圖像都不在 LLaVA 的數據集范圍內,LLaVA 能夠理解場景并按照問題說明進行回答。相比之下,BLIP-2 和 OpenFlamingo 專注于描述圖像,而不是按照用戶指令以適當的方式進行回答。更多示例如圖 3、圖 4 和圖 5 所示。

圖片

圖片

圖片

定量評估結果見表 3。

圖片

ScienceQA?

ScienceQA 包含 21k 個多模態多選問題,涉及 3 個主題、26 個話題、127 個類別和 379 種技能,具有豐富的領域多樣性。基準數據集分為訓練、驗證和測試部分,分別有 12726、4241 和 4241 個樣本。本文對比了兩種有代表性的方法,包括 GPT-3.5 模型(text-davinci-002)和沒有思維鏈(CoT)版本的 GPT-3.5 模型,LLaMA-Adapter,以及多模態思維鏈(MM-CoT)[57],這是該數據集上當前的 SoTA 方法,結果如表 6 所示。

圖片

試用反饋

在論文給出的可視化使用頁面上,機器之心也嘗試著輸入了一些圖片和指令。首先是問答里常見的數人任務。測試表明,數人的時候較小的目標會被忽略,重疊的人也有識別誤差,性別也有識別誤差。

圖片

圖片

接著,我們嘗試了一些生成任務,比如為圖片起名字,或者根據圖片講一個故事。模型輸出的結果還是偏向于圖片內容理解,生成方面的能力還有待加強。

圖片

圖片

在這張照片中,即便人體有重合也依然能準確地識別出人數。從圖片描述和理解能力的角度來看,本文的工作還是存在亮點,存在著二創的空間。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-20 08:19:23

GPT-4OpenAI

2023-08-15 10:33:06

微軟必應人工智能

2023-03-16 19:17:57

2022-02-24 13:59:59

AI智能體研究

2023-12-26 08:17:23

微軟GPT-4

2023-03-28 08:23:38

2023-05-30 13:29:25

2023-05-15 12:32:29

GPT-4開源

2023-06-19 08:19:50

2020-10-11 21:39:35

計算機互聯網 技術

2025-04-16 09:35:03

2020-01-09 17:03:29

人工智能技術算法

2023-04-05 14:19:07

FlinkRedisNoSQL

2021-08-27 06:41:34

Docker ContainerdRun&Exec

2024-03-22 13:33:00

AI模型

2023-03-15 07:49:57

GPT-4ChatGPT

2023-05-15 10:04:40

AI機器人

2024-05-21 12:23:17

2023-04-25 09:02:13

2024-01-30 20:36:09

GPT-4羊駝代碼
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲成人动漫在线观看 | 欧美国产视频一区二区 | 国产在线中文字幕 | 亚洲成人精品免费 | 欧美色欧美亚洲另类七区 | 中文字幕免费中文 | 亚洲福利av | 国产亚洲欧美日韩精品一区二区三区 | 在线只有精品 | 精品一区二区三区av | 国产精品美女www | 在线不卡视频 | 国产小视频在线 | 99re99| 国产激情免费视频 | 日韩免费中文字幕 | 99久久精品国产一区二区三区 | 久久精品国产99国产精品 | 性做久久久久久免费观看欧美 | 亚洲精品久久久久中文字幕二区 | 国产精品久久二区 | 爱爱视频在线观看 | 欧州一区二区三区 | 毛片在线视频 | 日韩免 | 日韩精品在线免费观看视频 | 亚洲天堂一区 | 麻豆成人在线视频 | 欧美日韩1区 | 亚洲精品影院 | 在线日韩欧美 | 综合天天久久 | 国产成人精品一区二区三区在线 | 91性高湖久久久久久久久_久久99 | 毛片在线看片 | 久久久www成人免费精品张筱雨 | 国产精品久久久久久久久久三级 | 成人精品一区二区三区四区 | 欧美综合一区二区三区 | 精品欧美久久 | 欧美a级网站 |