成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

3天近一萬Star,無差體驗GPT-4識圖能力,MiniGPT-4看圖聊天、還能草圖建網站

人工智能 新聞
GPT-4 已經發布一個多月了,但識圖功能還是體驗不了。來自阿卜杜拉國王科技大學的研究者推出了類似產品 ——MiniGPT-4,大家可以上手體驗了。

對人類來說,理解一張圖的信息,不過是一件微不足道的小事,人類幾乎不用思考,就能隨口說出圖片的含義。就像下圖,手機插入的充電器多少有點不合適。人類一眼就能看出問題所在,但對 AI 來說,難度還是非常大的。

圖片

GPT-4 的出現,開始讓這些問題變得簡單,它能很快的指出圖中問題所在:VGA 線充 iPhone。

其實 GPT-4 的魅力遠不及此,更炸場的是利用手繪草圖直接生成網站,在草稿紙上畫一個潦草的示意圖,拍張照片,然后發給 GPT-4,讓它按照示意圖寫網站代碼,嗖嗖的,GPT-4 就把網頁代碼寫出來了。

但遺憾的是,GPT-4 這一功能目前仍未向公眾開放,想要上手體驗也無從談起。不過,已經有人等不及了,來自阿卜杜拉國王科技大學(KAUST)的團隊上手開發了一個 GPT-4 的類似產品 ——MiniGPT-4。團隊研究人員包括朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny,他們均來自 KAUST 的 Vision-CAIR 課題組。

圖片

  • 論文地址:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
  • 論文主頁:https://minigpt-4.github.io/
  • 代碼地址:https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4 展示了許多類似于 GPT-4 的能力,例如生成詳細的圖像描述并從手寫草稿創建網站。此外,作者還觀察到 MiniGPT-4 的其他新興能力,包括根據給定的圖像創作故事和詩歌,提供解決圖像中顯示的問題的解決方案,根據食品照片教用戶如何烹飪等。

MiniGPT-4 看圖說話不在話下

MiniGPT-4 效果到底如何呢?我們先從幾個示例來說明。此外,為了更好的體驗 MiniGPT-4,建議使用英文輸入進行測試。

首先考察一下 MiniGPT-4 對圖片的描述能力。對于左邊的圖,MiniGPT-4 給出的回答大致為「圖片描述的是生長在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶,遠處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發生在現實世界中嗎?MiniGPT-4 給出的回答是這張圖像在現實世界并不常見,并給出了原因。

圖片

接著,在來看看 MiniGPT-4 圖片問答能力。問:「這棵植物出現了什么問題?我該怎么辦?」MiniGPT-4 不但指出了問題所在,表示帶有棕色斑點的樹葉可能由真菌感染引起,并給出了治療步驟:

圖片

幾個示例看下來,MiniGPT-4 看圖聊天的功能已經非常強大了。不僅如此,MiniGPT-4 還能從草圖創建網站。例如讓 MiniGPT-4 按照左邊的草稿圖繪制出網頁,收到指令后,MiniGPT-4 給出對應的 HTML 代碼,按照要求給出了相應網站:

圖片

借助 MiniGPT-4,給圖片寫廣告語也變得非常簡單。要求 MiniGPT-4 給左邊的杯子寫廣告文案。MiniGPT-4 精準的指出了杯子上有嗜睡貓圖案,非常適合咖啡愛好者以及貓愛好者使用,還指出了杯子的材質等等:

圖片

MiniGPT-4 還能對著一張圖片生成菜譜,變身廚房小能手:

圖片

 解釋廣為流傳的梗圖:

圖片

根據圖片寫詩:

圖片

此外,值得一提的是,MiniGPT-4 Demo 已經開放,在線可玩,大家可以親自體驗一番(建議使用英文測試):

圖片

Demo 地址:https://0810e8582bcad31944.gradio.live/

項目一經發布,便引起網友廣泛關注。例如讓 MiniGPT-4 解釋一下圖中的物體:

圖片

下面還有更多網友的測試體驗:

圖片

圖片

方法簡介

作者認為 GPT-4 擁有先進的大型語言模型(LLM)是其具有先進的多模態生成能力的主要原因。為了研究這一現象,作者提出了 MiniGPT-4,它使用一個投影層將一個凍結的視覺編碼器和一個凍結的 LLM(Vicuna)對齊。

MiniGPT-4 由一個預訓練的 ViT 和 Q-Former 視覺編碼器、一個單獨的線性投影層和一個先進的 Vicuna 大型語言模型組成。MiniGPT-4 只需要訓練線性層,用來將視覺特征與 Vicuna 對齊。

圖片

MiniGPT-4 進行了兩個階段的訓練。第一個傳統的預訓練階段使用大約 5 百萬對齊的圖像文本對,在 4 個 A100 GPU 上使用 10 小時進行訓練。第一階段后,Vicuna 能夠理解圖像。但是 Vicuna 文字生成能力受到了很大的影響。

為了解決這個問題并提高可用性,研究者提出了一種新穎的方式,通過模型本身和 ChatGPT 一起創建高質量的圖像文本對。基于此,該研究創建了一個小而高質量的數據集(總共 3500 對)。

第二個微調階段使用對話模板在此數據集上進行訓練,以顯著提高其生成可靠性和整體可用性。這個階段具有高效的計算能力,只需要一張 A100GPU 大約 7 分鐘即可完成。

其他相關工作:

  • VisualGPT: https://github.com/Vision-CAIR/VisualGPT
  • ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner

此外,項目中還使用了開源代碼庫包括 BLIP2、Lavis 和 Vicuna。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-04-24 09:28:53

2023-10-17 12:47:26

AI數據

2023-08-15 10:33:06

微軟必應人工智能

2023-03-15 14:15:06

GPT4ChatGPT網站

2023-12-26 08:17:23

微軟GPT-4

2023-06-19 08:19:50

2023-09-27 07:39:57

大型語言模型MiniGPT-4

2023-03-27 18:18:47

GPT-4AI

2025-04-16 09:35:03

2023-05-15 12:32:29

GPT-4開源

2024-04-03 12:18:45

AI訓練

2025-05-30 07:40:56

2023-08-28 13:36:00

AI模型

2024-05-21 12:23:17

2020-06-19 17:49:23

建網

2024-03-27 13:32:00

AI數據

2023-04-24 09:23:27

數據訓練

2023-04-04 11:20:40

GPT-4OpenAI

2023-03-16 19:17:57

2023-03-28 13:01:20

GPT-4開發OpenAI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品美女久久久久久免费 | 久久久在线视频 | 女女百合av大片一区二区三区九县 | 亚洲久在线 | 四虎成人在线播放 | 国产精品国产精品 | 狠狠躁躁夜夜躁波多野结依 | 国产黄色av网站 | 成人a网 | 日韩电影在线一区 | www狠狠爱com| 九九热这里只有精品6 | 天天草天天爱 | 美人の美乳で授乳プレイ | 日韩av中文| 久久久中文 | 亚洲一一在线 | 亚av在线| 亚洲综合热 | 国产精品久久久 | 一区久久| 欧美一级欧美一级在线播放 | 亚洲视频区| 亚洲精视频 | 欧美色综合一区二区三区 | 99精品久久 | 羞羞视频免费观 | 国产精品18久久久久久白浆动漫 | 日韩一级免费观看 | 国产一二三区电影 | 日韩福利在线 | 亚洲福利 | 欧美综合一区二区 | 精品亚洲一区二区 | 国产欧美一区二区三区在线看蜜臀 | 亚洲欧洲一区二区 | 日韩欧美在线观看视频 | 日本精品一区二区三区视频 | 黄色一级片视频 | 三级高清 | 欲色av |