成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

探索阿里通義千問的 Qwen2-VL:新一代視覺語言模型本地體驗實戰大全

人工智能
阿里通義千問的 Qwen2-VL 是一款具有強大功能和優異性能的視覺語言模型,它的發布為多模態技術的發展帶來了新的機遇。無論是在視覺理解能力、多語言支持還是視覺智能體能力方面,Qwen2-VL 都表現出了卓越的性能,為各種應用場景的智能化發展提供了有力的支持。

在人工智能領域,多模態模型的發展一直備受關注。阿里通義千問的 Qwen2-VL 的發布,為多模態技術的發展注入了新的活力。它不僅在圖像和視頻理解方面取得了顯著的突破,還具備強大的視覺智能體能力,能夠與各種設備進行交互,為用戶帶來全新的體驗。

一、模型特點

1. 強大的視覺理解能力

  • 任意分辨率圖像識別:Qwen2-VL 可以讀懂不同分辨率和不同長寬比的圖片,無論圖像的清晰度或大小如何,都能輕松識別。這得益于其獨特的 naive dynamic resolution 支持,能夠將任意分辨率的圖像映射成動態數量的視覺 token,保證了模型輸入和圖像信息的一致性,模擬了人類視覺感知的自然方式。
  • 長視頻理解:該模型能夠理解超過 20 分鐘的長視頻,這在多模態模型中是一項重大的突破。通過在線流媒體能力,它可以支持高質量的視頻問答、對話和內容創作等應用,為視頻領域的智能化發展提供了有力的支持。

2. 多語言支持

Qwen2-VL 除了支持英語和中文外,還能理解圖像視頻中的多種語言文本,包括大多數歐洲語言、日語、韓語、阿拉伯語、越南語等,真正做到了面向全球用戶,打破了語言的障礙,為多語言環境下的應用提供了便利。

3. 視覺智能體能力

Qwen2-VL 具備強大的視覺智能體能力,可自主操作手機和機器人等設備。借助其復雜的推理和決策能力,能夠根據視覺環境和文字指令進行自動操作,實現了人工智能與現實世界的更緊密結合,為智能家居、智能機器人等領域的發展帶來了新的機遇。

二、模型架構

1. 模型結構

Qwen2-VL 延續了上一代 Qwen-VL 中 ViT 加 Qwen2 的串聯結構,三個不同規模的模型都采用了 600M 規模大小的 ViT,支持圖像和視頻統一輸入。這種結構使得模型能夠更好地融合視覺和語言信息,提高對多模態數據的理解能力。

圖片圖片

2. 多模態旋轉位置編碼(M-ROPE)

傳統的旋轉位置嵌入只能捕捉一維序列的位置信息,而 Qwen2-VL 采用的 M-ROPE 將旋轉位置編碼分解成時間、空間(高度和寬度)三部分,使大規模語言模型能夠同時捕捉和整合一維文本、二維視覺和三維視頻的位置信息,賦予了模型強大的多模態處理和推理能力,能夠更好地理解和建模復雜的多模態數據。

圖片圖片

三、模型性能

1. 基準測試成績優異

在多個權威測評中,Qwen2-VL 創造了同等規模開源模型的最佳成績。在 mathvista、docvqa、realworldqa、mtvqa 等基準測試中創下全球領先的表現,在文檔理解方面優勢尤其明顯。與 GPT-4O 和 Claude3.5-Sonnet 等閉源模型相比,Qwen2-VL 在大部分指標上都達到了最優。

2. 高效的計算效率

在保證高性能的同時,Qwen2-VL 還具有較高的計算效率,能夠在不同的硬件平臺上快速運行,為大規模應用提供了可能。其量化版本的發布,進一步提高了模型的計算效率,降低了部署成本。

圖片圖片


四、模型體驗

在線體驗https://huggingface.co/spaces/Qwen/Qwen2-VL

圖片圖片

五、模型下載

此次 Qwen2 - VL 進行了開源,其中包含兩個尺寸的模型,分別是 Qwen2 - VL - 2B - Instruct 以及 Qwen2 - VL - 7B - Instruct,同時還提供了其 GPTQ 和 AWQ 的量化版本。

以下是模型相關鏈接:

Qwen2 - VL - 2B - Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2 - VL - 7B - Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct

我們推薦使用 ModelScope CLI 進行模型下載,具體命令如下:

modelscope download --model=qwen/Qwen2-VL-7B-Instruct --local_dir ./Qwen2-VL-7B-Instruct

下載完成如下:

圖片圖片

六、模型推理

1. 安裝依賴

pip install git+https://github.com/huggingface/transformers


pip install qwen-vl-utils

安裝如下:

圖片圖片

2. 模型推理

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
# default: Load the model on the available device(s)
# model = Qwen2VLForConditionalGeneration.from_pretrained(
# "./Qwen2-VL-7B-Instruct", torch_dtype="auto", device_map="auto"
# )
import torch


model = Qwen2VLForConditionalGeneration.from_pretrained(
  "./Qwen2-VL-7B-Instruct",
  torch_dtype=torch.bfloat16,
  attn_implementatinotallow="flash_attention_2",
).to("cuda:0")


# We recommend enabling flash_attention_2 for better acceleration and memory saving, especially in multi-image and video scenarios.
# model = Qwen2VLForConditionalGeneration.from_pretrained(
# "Qwen/Qwen2-VL-7B-Instruct",
# torch_dtype=torch.bfloat16,
# attn_implementatinotallow="flash_attention_2",
# device_map="auto",
# )
# default processer
processor = AutoProcessor.from_pretrained("./Qwen2-VL-7B-Instruct")
# The default range for the number of visual tokens per image in the model is 4-16384.
# You can set min_pixels and max_pixels according to your needs, such as a token range of 256-1280, to balance performance and cost.
# min_pixels = 256*28*28
# max_pixels = 1280*28*28
# processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-7B-Instruct", min_pixels=min_pixels, max_pixels=max_pixels)


messages = [
  {
    "role": "user",
    "content": [
      {
        "type": "image",
        "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
      },
      {"type": "text", "text": "Describe this image."},
    ],
  }
]
# Preparation for inference
text = processor.apply_chat_template(
  messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
  text=[text],
  images=image_inputs,
  videos=video_inputs,
  padding=True,
  return_tensors="pt",
)
inputs = inputs.to("cuda")
# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
  out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
  generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

輸出如下:

圖片圖片

七、模型微調

1. 安裝依賴

swift開源地址:https://github.com/modelscope/swift

在開始微調之前,先準備好環境

git clone https://github.com/modelscope/swift.git
cd swiftpip install -e .[llm]
pip install pyav qwen_vl_utils

2. 模型微調

圖像描述微調我們使用 coco-en-mini 數據集進行微調,該數據集的任務是對圖片內容進行描述。

可以在 modelscope 上找到該數據集:https://modelscope.cn/datasets/modelscope/coco_2014_caption/summary

# 默認會將lora_target_modules設置為llm的所有linear
CUDA_VISIBLE_DEVICES=0,1,2,3 NPROC_PER_NODE=4 swift sft \
--model_type qwen2-vl-7b-instruct \
--model_id_or_path qwen/Qwen2-VL-7B-Instruct \
--sft_type lora \
--dataset coco-en-mini#20000 \
--deepspeed default-zero2

如果要使用自定義數據集,只需按以下方式進行指定:

--dataset train.jsonl \
--val_dataset val.jsonl \

自定義數據集支持json和jsonl樣式,以下是自定義數據集的樣例:

{"query": "<image>55555", "response": "66666", "images": ["image_path"]}
{"query": "eeeee<image>eeeee<image>eeeee", "response": "fffff", "history": [], "images": ["image_path1", "image_path2"]}
{"query": "EEEEE", "response": "FFFFF", "history": [["query1", "response2"

微調后推理腳本如下:

CUDA_VISIBLE_DEVICES=0 swift infer \
--ckpt_dir output/qwen2-vl-7b-instruct/vx-xxx/checkpoint-xxx \
--load_dataset_config true --merge_lora true

八、結語

阿里通義千問的 Qwen2-VL 是一款具有強大功能和優異性能的視覺語言模型,它的發布為多模態技術的發展帶來了新的機遇。無論是在視覺理解能力、多語言支持還是視覺智能體能力方面,Qwen2-VL 都表現出了卓越的性能,為各種應用場景的智能化發展提供了有力的支持。隨著技術的不斷發展和應用場景的不斷拓展,相信 Qwen2-VL 將在未來發揮更加重要的作用。

責任編輯:武曉燕 來源: 小兵的AI視界
相關推薦

2024-08-30 15:19:22

2025-03-27 10:04:36

阿里云通義千問多模態

2024-12-25 20:13:35

2025-03-28 11:06:10

視覺推理模型阿里通義千問AI

2025-01-09 09:56:34

視覺模型圖像生成

2011-03-31 17:49:51

微軟嵌入式WindowsEmbe

2024-08-30 14:35:00

2023-12-01 13:36:01

阿里云通義千問

2010-03-02 17:16:19

Android手機語言

2025-01-13 10:55:53

2024-08-14 10:13:59

2024-03-12 07:24:26

DingoDB數據庫數據的存儲

2025-04-30 10:59:04

2011-12-07 12:00:06

ibmdw

2020-08-07 14:05:02

垃圾回收器ZGC

2023-04-07 14:01:18

ChatGPT人工智能

2025-05-15 03:25:00

2023-08-03 19:11:45

2023-12-04 09:55:58

AI大模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一区在线发布 | 国产高清一区二区 | 午夜丁香视频在线观看 | 日本aaa视频 | 超碰在线人人干 | 亚洲成人免费在线观看 | 午夜视频在线观看网站 | 在线观看www高清视频 | 日韩精品一区二区三区 | 黑人巨大精品欧美黑白配亚洲 | 伊人伊人网 | 亚洲444kkkk在线观看最新 | 精品国产乱码久久久久久久久 | 波多野结衣av中文字幕 | 成人性生交大免费 | 福利视频一二区 | 精品久| 中文在线a在线 | 欧美性jizz18性欧美 | 日韩在线欧美 | 久久草视频| 自拍偷拍亚洲欧美 | 亚洲国产精品成人 | av播播| 欧美日韩一二三区 | 精品一区二区三区在线视频 | 正在播放国产精品 | 午夜伦理影院 | 国产真实乱全部视频 | 91久久国产综合久久91精品网站 | 91porn在线观看 | 午夜一区二区三区在线观看 | 精品日韩 | 一区二区三区不卡视频 | 日韩精品一二三 | 国产一级在线 | 91在线视频一区 | 人人看人人搞 | av大片在线观看 | 久久久精品网站 | 国产最新视频在线 |