成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

年輕人的第一個多模態大模型:1080Ti輕松運行,已開源在線可玩

人工智能 新聞
據介紹,Vary-toy雖小,但卻幾乎涵蓋了目前LVLM(大型視覺語言模型)主流研究中的所有能力。

一款名為Vary-toy的“年輕人的第一個多模態大模型”來了!

模型大小不到2B,消費級顯卡可訓練,GTX1080ti 8G的老顯卡輕松運行。

想將一份文檔圖片轉換成Markdown格式?以往需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟。

現在只需一句話命令:

圖片

無論中英文,圖片中的大段文字都能分分鐘提取出來:

圖片

對一張圖做對象檢測,還是能給出具體坐標的那種:

圖片

這項研究由來自曠視、國科大、華中大的研究人員共同提出。

據介紹,Vary-toy雖小,但卻幾乎涵蓋了目前LVLM(大型視覺語言模型)主流研究中的所有能力:文檔OCR識別(Document OCR)、視覺定位(Visual Grounding)、圖像描述(Image Caption)、視覺問答(VQA)

圖片

現在,Vary-toy代碼和模型均已開源,并有在線demo可試玩。

圖片

網友一邊表示感興趣,一邊關注點在于舊·GTX1080,心情belike:

圖片

“縮小版”Vary

其實,早在去年12月Vary團隊就發布了Vary的首項研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人員指出CLIP視覺詞表在密集感知能力上的不足,并用一種簡單有效的擴充詞表方案給出了一種全新的OCR范式。

Vary發布后得到廣泛關注,目前Github1.2k+ star,但也有不少人因為資源受限運行不了。

考慮到目前開源得很好且性能出色的“小”VLM比較少,于是該團隊又新發布了號稱是“年輕人的第一個多模大模型”的Vary-toy。

與Vary相比,Vary-toy除了小之外,也訓練了更強的視覺詞表,新的詞表不再將模型局限于文檔級OCR,而是給出了一個更加通用和全面的視覺詞表,其不僅能做文檔級OCR,還能做通用視覺目標檢測。

那這究竟是如何做到的?

Vary-toy的模型結構和訓練流程如下圖所示,總的來說,訓練共分兩個階段。

圖片

首先在第一階段,使用Vary-tiny+結構,預訓練出一個相比原版Vary更好的視覺詞表,新的視覺詞表解決了原Vary只用它做文檔級OCR的網絡容量浪費問題、以及沒有充分利用到SAM預訓練優勢的問題。

然后在第二階段中,將第一階段中訓好的視覺詞表merge到最終結構進行multi-task training/SFT。

眾所周知,一個好的數據配比對于產生一個能力全面的VLM是至關重要的。

因此在預訓練階段,Vary-toy使用了5種任務類型的數據構建對話,數據配比和示例prompt如下圖所示:

圖片

而在SFT階段,只使用了LLaVA-80K數據。更多的技術細節,可以查看Vary-toy的技術報告。

實驗測試結果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四個基準測試的得分如下:

圖片

Vary-toy在DocVQA上可以達到 65.6%的ANLS,在ChartQA上達到59.1%的準確率,RefCOCO88.1%的準確率:

圖片

MMVet上可以達到29%準確率,無論是從基準測試評分上還是可視化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一較高下。

圖片

項目鏈接:
[1]https://arxiv.org/abs/2401.12503

[3]https://varytoy.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2010-01-25 09:54:09

創業

2017-01-03 18:42:22

花蝦金融段念互聯網金融

2018-09-21 15:15:33

NVIDIA顯卡深度學習

2023-08-15 14:35:48

2024-01-06 17:07:16

計算機視覺技術

2019-09-17 16:04:17

戴爾

2012-12-13 16:32:41

通信網絡移動網絡

2025-01-08 08:21:16

2019-04-01 15:28:20

996互聯網ICU

2025-03-26 08:53:47

2024-10-21 13:20:00

視頻數據集

2023-03-07 07:23:50

2023-07-04 10:18:25

開源模型

2020-05-20 15:37:43

VR虛擬現實年輕人

2018-09-05 15:06:00

GTX 1080Ti顯卡NVIDIA

2025-03-11 09:35:00

2023-10-10 13:42:56

訓練數據

2020-10-09 09:28:43

互聯網數據技術

2020-11-05 14:48:29

AI人工智能互聯網
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费高清成人 | 国产福利视频 | 91精品国产色综合久久 | 免费在线观看一区二区 | 国产成人小视频 | 久一精品 | 天天拍天天操 | 久久精品小视频 | 精品久久国产视频 | 日韩视频一级 | 黄色男女网站 | 亚洲性人人天天夜夜摸 | 青青久久久 | 麻豆久久久9性大片 | 欧美日一区二区 | 久久久久久久久精 | 日韩伦理一区二区三区 | 欧美精品免费观看二区 | 在线观看视频h | 欧美1区 | 日韩一区二区在线视频 | 天天色天天射天天干 | 免费久久久久久 | 亚洲精品一区二区三区中文字幕 | 亚洲精品亚洲人成人网 | 中文字幕成人av | 美女视频一区二区 | 国产精品久久久 | 三级高清 | 91久久久久久久久 | 国产69久久精品成人看动漫 | 欧美日韩a | 精品久久中文 | 欧美在线一区二区三区 | 亚洲成人免费在线观看 | 在线中文字幕亚洲 | 国产成人在线看 | 国产成人一区 | 91精品国产一区二区三区蜜臀 | 国产精产国品一二三产区视频 | 中文字幕久久精品 |