成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

GPT-4V開源平替！清華浙大領銜，LLaVA、CogAgent等開源視覺模型大爆發

作者：新智元 2024-01-03 12:56:39

GPT-4V的開源替代方案來了！極低成本，性能卻類似，清華、浙大等中國頂尖學府，為我們提供了性能優異的GPT-4V開源平替。

如今，GPT-4 Vision在語言理解和視覺處理方面展現出了非凡的能力。

然而，如果想在不影響性能的前提下，尋求具有成本效益的替代方案，開源方案就蘊藏著無限可能。

國外的一位開發者Youssef Hosni為大家奉上了三種GPT-4V的開源替代方案，可訪問性絕對可以保障。

三種開源視覺語言模型LLaVa、CogAgent和BakLLaVA，在視覺處理領域具有極大的潛力。

圖片

LLaVa

LLaVA是端到端訓練的多模態大模型，來自威斯康星大學麥迪遜分校、微軟研究院以及哥倫比亞大學的研究人員，最初的版本在4月發布。

它將視覺編碼器和用于通用視覺和語言理解的Vicuna 結合在?起，實現了令人印象深刻的聊天能力。

圖片

10月份，升級后的LLaVA-1.5的表現已經接近多模態GPT-4，在Science QA數據集上取得了SOTA。

圖片

13B模型的訓練，只需要8個A100就可以在1天內完成。

圖片

可以看到，LLaVA能處理各類問題，且生成的回答既全面又富有邏輯。

LLaVA表現出一些接近GPT-4水平的多模態能力，在視覺聊天方面，GPT-4相對評分85%。

而在推理問答方面，LLaVA甚至達到了新SoTA——92.53%，擊敗多模態思維鏈。

圖片

在視覺推理上，它的表現十分搶眼。

圖片

圖片

提問：「如果有事實性錯誤，請指出來。如果沒有，請告訴我，沙漠中正在發生什么？」

LLaVA還無法完全回答正確。

升級后的LLaVA-1.5給出了完美答案：「圖中根本沒有沙漠，有的是棕櫚樹海灘、城市天際線和一大片水域。」

圖片

另外，LLaVA-1.5還可以從圖中提取信息，按照要求的格式進行回答，比如以JSON格式輸出。

圖片

給LLaVA-1.5一張滿是水果蔬菜的圖片，它也能像GPT-4V一樣，把圖片轉化JSON。

圖片

下面這幅圖是什么意思？

圖片

這是一張根據諾蘭《盜夢空間》繪制的簡化草圖，為了提高難度，角色名字被改成了假名。

LLaVA-1.5驚艷答出：「這是一張關于電影《盜夢空間》的圖。它顯示了夢境世界中的不同層次，每一層次用一條線表示。圖寫在一張紙上，紙放在一個臺面上。」

圖片

一張食物圖直接發給LLaVA-1.5，它火速就給你生成一份菜譜。

圖片

而且，LLaVA-1.5不用「越獄」就可以識別出驗證碼。

圖片

它還能檢測出，圖中是哪種硬幣。

圖片

尤為令人印象深刻的是，LLaVA-1.5還能告訴你圖中的汪星人是什么品種。

圖片

有網友用Bing生成了一張在陽光明媚的夏季海灘上穿著冬季外套的男人的圖片，并請LLaVA 1.5指出圖中有哪些問題。它的慧眼十分犀利——

這是一張經過處理或PS的照片，照片中一名男子穿著夾克，站在海灘上。該男子敞開外套，陽光照在他身上。這張圖片的問題在于，它并非真實的海灘場景。該男子實際上并沒有站在沙灘上，陽光也沒有照在他身上。這張圖是p出來的，營造出了一種海灘場景的假象，但它并沒有真實地再現這個場景。

圖片

OCR識別，LLaVA的性能也很強大。

圖片

圖片

圖片

CogAgent

CogAgent是在CogVLM基礎上改進的開源視覺語言模型，來自清華的研究者。

CogAgent-18B有110億個視覺參數，和70億個語言參數。

圖片

論文地址：https://arxiv.org/pdf/2312.08914.pdf

在9個經典的跨模態基準（包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE）上，CogAgent-18B實現了最先進的通用性能。

在AITW和Mind2Web等圖形用戶界面操作數據集上，它大大超過了現有模型。

除了CogVLM已有的所有功能（可視化多輪對話、可視化接地）外，CogAgent.NET還提供了更多的功能：

1.支持更高分辨率的視覺輸入和對話答題。支持1120x1120的超高分辨率圖像輸入。

2.具備可視化代理的能力，能夠在任何圖形用戶界面截圖上返回任何給定任務的計劃、下?步行動和帶有坐標的具體操作。

3.增強了與圖形用戶界面相關的問題解答功能，使其能夠處理與網頁、PC應用程序、移動應用程序等任何圖形用戶界面截圖相關的問題。

4.通過改進預培訓和微調，增強了OCR相關任務的能力。

圖形用戶界面代理（GUI Agent）

利用CogAgent，它可以幫我們一步步找到CVPR23的最佳論文。

圖片

可以幫我們把手機顯示調成明亮模式。

圖片

這條推文有多少轉評贊，為什么如此受歡迎，CogAgent都能分析出來，甚至連回復一個“Brilliant”，它都能操作。

圖片

從弗羅里達大學到好萊塢，怎樣選擇最快的路線？如果從早上8點出發，該如何評估需要花多長時間？CogAgent都可以回答。

圖片

可以設定特定的主題，讓CogAgent往指定的郵箱里發郵件。

圖片

想聽一首<You raise me up>，CogAgent可以一步步列出步驟。

圖片

CogAgent能精準地描述出《原神》中的畫面，還能引導你如何走到傳送點。

圖片

BakLLaVA

BakLLaVA1是使用LLaVA 1.5架構增強的Mistral 7B基礎模型。

在第?個版本中，Mistral 7B基礎模型在多個基準測試中優于Llama 2 13B。

在他們的repo中，就可以運行BakLLaVA-1了。頁面還在不斷更新中，以方便微調和推理。(https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1是完全開源的，但在某些數據上進行了訓練，其中包括LLaVA的語料庫，因此不允許商用。

BakLLaVA 2采用了更大的數據集和更新的架構，超越了當前的LLaVa方法。BakLLaVA擺脫了BakLLaVA-1的限制，可以商用。

參考資料：

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

責任編輯：武曉燕來源：新智元

GPT-4V 開源 LLaVA

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：免费人成激情视频在线观看冫 | 91视频国产一区 | 一区二区在线免费观看 | 国产日韩欧美中文字幕 | 99精品国产一区二区三区 | 国产一区二区三区免费观看在线 | 一区二区高清在线观看 | 国产电影精品久久 | 亚洲一区二区在线 | 一区二区三区国产好的精 | 蜜桃av人人夜夜澡人人爽 | 日韩视频在线一区 | 成人精品国产免费网站 | 国产成人av免费看 | 国产1区2区3区 | 国产又爽又黄的视频 | 奇米影视在线 | 91在线视频免费观看 | 成人免费视频网站在线看 | 欧美jizzhd精品欧美巨大免费 | 欧美一二三 | 日韩一区在线视频 | 国产精品久久久久久久久久免费看 | 成人动慢| 国产精品亚洲一区二区三区在线 | 国产成人免费视频网站高清观看视频 | 女同久久另类99精品国产 | 国产成人一区二区 | 二区三区视频 | 欧美韩一区二区 | 亚洲欧美在线视频 | 欧美日韩国产综合在线 | 国内毛片毛片毛片毛片 | 精品国产一区二区三区性色 | 久久久久国产一区二区三区 | 黄色三级毛片 | 国产欧美日韩一区 | 中文字幕日韩一区 | 久久美女网 | 成年免费大片黄在线观看一级 | 久久久青草婷婷精品综合日韩 |