通義千問開源視覺語言模型Qwen2-VL，創造開源多模態模型最佳成績

2024-08-30 15:19:22

8月30日，阿里通義千問開源第二代視覺語言模型Qwen2-VL，推出2B、7B兩個尺寸及其量化版本模型。Qwen2-VL在多個權威測評中創造了同等規模開源模型的最佳成績，能夠識別不同分辨率和長寬比的圖片，能夠理解20分鐘以上長視頻，還具備自主操作手機和機器人的視覺智能體能力。

2023年8月，通義千問開源第一代視覺語言理解模型Qwen-VL，成為開源社區最受歡迎的多模態模型之一。短短一年內，模型下載量突破1000萬次。目前，多模態模型在手機、車端等各類視覺識別場景的落地正在加速，開發者和應用企業也格外關注Qwen-VL的升級迭代。

千呼萬喚，Qwen2-VL交出了成績單。相比上代模型，Qwen2-VL的基礎性能全面提升。可以讀懂不同分辨率和不同長寬比的圖片，在DocVQA、RealWorldQA、MTVQA 等基準測試創下全球領先的表現；可以理解20分鐘以上長視頻，支持基于視頻的問答、對話和內容創作等應用；具備強大的視覺智能體能力，可自主操作手機和機器人，借助復雜推理和決策的能力，Qwen2-VL 可以集成到手機、機器人等設備，根據視覺環境和文字指令進行自動操作；能理解圖像視頻中的多語言文本，包括中文、英文，大多數歐洲語言，日語、韓語、阿拉伯語、越南語等。

義千問團隊從六個方面評估了模型能力，包括綜合的大學題目、數學能力、文檔表格多語言文字圖像的理解、通用場景問答、視頻理解、Agent 能力。Qwen2-VL-7B以其“經濟型”參數規模實現了極具競爭力的性能表現；Qwen2-VL-2B則可支持移動端的豐富應用，同樣具備完整圖像視頻多語言的理解能力，在視頻文檔和通用場景問答方面，相比同規模模型優勢顯著。

Qwen2-VL延續了 ViT 加 Qwen2 的串聯結構，三個尺寸的模型都采用了 600M 規模大小的 ViT，支持圖像和視頻統一輸入。研發團隊還在架構上作了兩大改進，一是實現了對原生動態分辨率的全面支持，不同于上代模型，Qwen2-VL 能夠處理任意分辨率的圖像輸入，這一設計模擬了人類視覺感知的自然方式，賦予模型處理任意尺寸圖像的強大能力；二是使用了多模態旋轉位置嵌入（M-ROPE）方法，傳統的旋轉位置嵌入只能捕捉一維序列的位置信息，M-ROPE 使得大規模語言模型能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息，賦予了語言模型強大的多模態處理和推理能力，能讓模型更好地理解和建模復雜的多模態數據。

Qwen2-VL模型結構

目前，通義千問團隊以Apache 2.0 協議開源了 Qwen2-VL-2B 和 Qwen2-VL-7B，開源代碼已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。開發者可以通過Hugging Face 和魔搭ModelScope下載使用模型，也可通過通義官網、通義APP的主對話頁面使用模型。

GitHub https://github.com/QwenLM/Qwen2-VL

HuggingFace https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭ModelScope https://modelscope.cn/organization/qwen?tab=model

模型體驗 https://huggingface.co/spaces/Qwen/Qwen2-VL

責任編輯：鳶瑋來源：阿里云

通義千問開源模型阿里云

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

通義千問開源視覺語言模型Qwen2-VL，創造開源多模態模型最佳成績