成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里大模型又開源!能讀圖會識物,基于通義千問7B打造,可商用

人工智能 新聞
研究人員在四大類多模態(tài)任務(Zero-shot Caption/VQA/DocVQA/Grounding)的標準英文測評中測試了Qwen-VL。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。

阿里開源大模型,又上新了~

繼通義千問-7B(Qwen-7B)之后,阿里云又推出了大規(guī)模視覺語言模型Qwen-VL,并且一上線就直接開源。

圖片

具體來說,Qwen-VL是基于通義千問-7B打造的多模態(tài)大模型,支持圖像、文本、檢測框等多種輸入,并且在文本之外,也支持檢測框的輸出。

舉個??,我們輸入一張阿尼亞的圖片,通過問答的形式,Qwen-VL-Chat既能概括圖片內容,也能定位到圖片中的阿尼亞。

圖片

測試任務中,Qwen-VL展現(xiàn)出了“六邊形戰(zhàn)士”的實力,在四大類多模態(tài)任務的標準英文測評中(Zero-shot Caption/VQA/DocVQA/Grounding)上,都取得了SOTA。

圖片

開源消息一出,就引發(fā)了不少關注。

圖片

圖片

具體表現(xiàn)如何,咱們一起來看看~

首個支持中文開放域定位的通用模型

先來整體看一下Qwen-VL系列模型的特點:

  • 多語言對話:支持多語言對話,端到端支持圖片里中英雙語的長文本識別;
  • 多圖交錯對話:支持多圖輸入和比較,指定圖片問答,多圖文學創(chuàng)作等;
  • 首個支持中文開放域定位的通用模型:通過中文開放域語言表達進行檢測框標注,也就是能在畫面中精準地找到目標物體;
  • 細粒度識別和理解:相比于目前其它開源LVLM(大規(guī)模視覺語言模型)使用的224分辨率,Qwen-VL是首個開源的448分辨率LVLM模型。更高分辨率可以提升細粒度的文字識別、文檔問答和檢測框標注。

按場景來說,Qwen-VL可以用于知識問答、圖像問答、文檔問答、細粒度視覺定位等場景。

比如,有一位看不懂中文的外國友人去醫(yī)院看病,對著導覽圖一個頭兩個大,不知道怎么去往對應科室,就可以直接把圖和問題丟給Qwen-VL,讓它根據(jù)圖片信息擔當翻譯。

再來測試一下多圖輸入和比較:

雖然沒認出來阿尼亞,不過情緒判斷確實挺準確的(手動狗頭)。

視覺定位能力方面,即使圖片非常復雜人物繁多,Qwen-VL也能精準地根據(jù)要求找出綠巨人和蜘蛛俠。

圖片

技術細節(jié)上,Qwen-VL是以Qwen-7B為基座語言模型,在模型架構上引入了視覺編碼器ViT,并通過位置感知的視覺語言適配器連接二者,使得模型支持視覺信號輸入。

圖片

具體的訓練過程分為三步:

  • 預訓練:只優(yōu)化視覺編碼器和視覺語言適配器,凍結語言模型。使用大規(guī)模圖像-文本配對數(shù)據(jù),輸入圖像分辨率為224x224。
  • 多任務預訓練:引入更高分辨率(448x448)的多任務視覺語言數(shù)據(jù),如VQA、文本VQA、指稱理解等,進行多任務聯(lián)合預訓練。
  • 監(jiān)督微調:凍結視覺編碼器,優(yōu)化語言模型和適配器。使用對話交互數(shù)據(jù)進行提示調優(yōu),得到最終的帶交互能力的Qwen-VL-Chat模型。

研究人員在四大類多模態(tài)任務(Zero-shot Caption/VQA/DocVQA/Grounding)的標準英文測評中測試了Qwen-VL。

圖片

結果顯示,Qwen-VL取得了同等尺寸開源LVLM的最好效果。

另外,研究人員構建了一套基于GPT-4打分機制的測試集TouchStone

圖片

圖片

在這一對比測試中,Qwen-VL-Chat取得了SOTA。

如果你對Qwen-VL感興趣,現(xiàn)在在魔搭社區(qū)和huggingface上都有demo可以直接試玩,鏈接文末奉上~

Qwen-VL支持研究人員和開發(fā)者進行二次開發(fā),也允許商用,不過需要注意的是,商用的話需要先填寫問卷申請。

項目鏈接:https://modelscope.cn/models/qwen/Qwen-VL/summary
https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
https://huggingface.co/Qwen/Qwen-VL
https://huggingface.co/Qwen/Qwen-VL-Chat
https://github.com/QwenLM/Qwen-VL

論文地址:https://arxiv.org/abs/2308.12966

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-08-03 19:11:45

2023-04-11 13:40:22

阿里云大模型通義千問

2023-04-07 14:01:18

ChatGPT人工智能

2023-12-04 09:55:58

AI大模型

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2023-04-11 15:49:17

阿里云峰會人工智能

2023-10-09 12:36:58

2024-12-02 08:00:00

2024-06-03 10:43:34

2025-01-10 12:58:37

2023-12-01 13:36:01

阿里云通義千問

2025-01-13 10:55:53

2024-08-30 15:19:22

2024-10-30 11:06:59

SpringAI模型

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2023-12-01 12:31:22

AI模型

2025-03-06 10:18:38

2024-12-25 20:13:35

2023-09-25 12:14:00

AI開源

2025-03-27 13:23:39

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品国产一区二区电影 | 国产高清免费 | 欧美一级黄色片免费观看 | 在线观看欧美日韩视频 | 黄篇网址 | 97色伦网 | www.成人久久 | 黄色免费观看网站 | 蜜桃在线视频 | 日韩高清一区 | 亚洲高清在线观看 | 久草免费在线视频 | 国产sm主人调教女m视频 | www免费视频| 久久精品播放 | 成人伊人| 久久精品亚洲欧美日韩精品中文字幕 | 999久久久久久久久6666 | 国产一区不卡在线观看 | 亚洲最大成人综合 | 亚洲精品字幕 | 国产美女一区 | 国产精品日韩一区二区 | 欧美精品久久久久久久久久 | 亚洲精品久久久久久国产精华液 | 精品国产欧美一区二区三区成人 | 日日摸日日添日日躁av | 免费视频一区 | 欧美成人在线网站 | 国产在线一区二 | 欧美黄色片 | 国产精品免费一区二区三区 | 免费在线观看av网站 | 免费看国产片在线观看 | 亚洲精选一区二区 | 欧美精品一区在线 | 久久狠狠 | 久久久久黑人 | 免费国产视频 | 91精品国产综合久久精品 | 精品国产乱码久久久久久丨区2区 |