成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺模型進入MoE時代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!

原創 精選
人工智能
多模態可以說是今年以來大模型向前演進的一個趨勢,從語言到視覺、聽覺等深入研究,既可以進一步解鎖大模型的通用能力,同時也會讓未來的AI應用更加繁榮和落地。

編輯 | 言征

出品 | 51CTO技術棧(微信號:blog51cto)

12月13日晚,國內開源模型玩家深度求索發布了視覺模型 DeepSeek-VL2。這次DeepSeek視覺模型給這一領域帶來了不少看新看點:

1、模型層面,視覺模型也可以使用 MoE 架構,而且可以配合動態切圖

2、新增了不少生成玩法,如:視覺定位,模型可以根據提示識別出物體的邊界范圍,再比如梗圖理解和解析。

3、圖表理解:可以根據plot圖逆向生成代碼。

4、從OCR到故事生成:可以N張圖一期喂給模型,模型直接生成強相關的故事。

先上一張圖,讓大家品一品,一句提示,讓大模型明白圖中的人物:誰是淡定姐。

圖片圖片

當然,DeepSeek-VL2 肯定是開源的了,具體型號有3B、16B 、 27B。模型和論文均已發布:

模型下載:https://huggingface.co/deepseek-ai

GitHub主頁:https://github.com/deepseek-ai/DeepSeek-VL2

圖片

1.模型新升級

首先看數據方面,VL2 比上一代 DeepSeek-VL 多一倍優質訓練數據,引入梗圖理解、視覺定位、視覺故事生成等新能力。

模型架構上,視覺部分使用切圖策略支持動態分辨率圖像,語言部分采用 MoE 架構低成本高性能。

圖片圖片

訓練方法上,繼承 DeepSeek-VL 的三階段訓練流程,同時通過負載均衡適配圖像切片數量不定的困難,對圖像和文本數據使用不同流水并行策略,對 MoE 語言模型引入專家并行,實現高效訓練。

在不少視覺理解測試中,評分結果跟GPT4o、Qwen打平,甚至更好,關鍵是VL2可以用更少的參數量就能達到極好的效果。DeepSeek-VL2 模型展現出了強大能力,在各項評測指標上均取得了極具優勢的成績:

圖片圖片

具體的測評結果如下:

圖片圖片

2.動態分辨率支持

據介紹,DeepSeek-VL2 僅使用一個 SigLIP-SO400M 作為圖像編碼器,通過將圖像切分為多張子圖和一張全局縮略圖來實現動態分辨率圖像支持。這一策略使得 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長寬比,這樣就可以適配更多應用場景。

圖片圖片

3.圖表理解

更多科研文檔數據的學習使得 DeepSeek-VL2 可以輕易理解各種科研圖表。

圖片圖片

甚至連內涵的梗圖大模型也可以理解到位,由于DeeSeek-VL2用了更大規模的優質數據,使得模型可以解析各種迷之能力,內涵什么的,大模型簡直小菜一碟。

一道調侃考試難度的梗圖,讓他解釋下為什么好笑——

圖片圖片

4.Plot2Code(逆向:圖生代碼)

DeepSeek-VL2 同時具備圖像理解和代碼生成的功能,可以作為你逆向畫圖的好幫手。

圖片圖片

Prompt: Draw a plot similar to the image in Python.

5.視覺定位:視覺感知+語言推理

DS-VL2這次的一大看點就是視覺定位。用戶可以用一句話描述下物體,然后讓 DeepSeek-VL2 幫在圖像里找到符合描述的部分(注:模型本身只是輸出相應物體的邊界框)。

視覺模型進入MoE時代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區視覺模型進入MoE時代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區

有了這項功能,就可以讓大模型做很多事情,比如higlight一下孫猴子、葫蘆娃什么的,甚至有幾個葫蘆娃也都可以標出來!

圖片圖片

此外,視覺感知+語言推理,強強聯手還可以讓模型具備視覺語義的對話能力。

這就是我們之前在GPT-4o發布視覺對話中的功能,你跟模型視頻,問他哪款甜品適合自己,他能很懂你的需求做出推薦。

圖片圖片

6.故事生成

你也可以輸入多張圖像,讓模型把它們串聯起來,小老鼠、話多、魔法師、發光樹,四張圖片一上傳,讓VL2用這些圖片講一個故事,它也不會怵,秒懂圖里的角色,快速講出一篇《雪夜的奇遇》的童話來。

圖片圖片


童話出版物機構可以用上一用!

7.寫在最后:如何理解和用好多模態?

多模態可以說是今年以來大模型向前演進的一個趨勢,從語言到視覺、聽覺等深入研究,既可以進一步解鎖大模型的通用能力,同時也會讓未來的AI應用更加繁榮和落地。

DeepSeek團隊提到,視覺是人類獲取外界信息的主要來源,占據所有信息量的約 80%。然而在大模型時代,視覺方面的進展卻遠遠落后于語言模型。

“我們堅信,提升模型視覺能力的意義不僅在于支持更多的輸入模態,更在于全方位提升模型的感知和認知能力?!?/span>

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://www.ekrvqnd.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-08-30 15:19:22

2025-01-09 09:56:34

視覺模型圖像生成

2024-10-29 13:30:00

2022-10-11 16:34:28

深度學習模型

2024-12-18 14:50:00

AI訓練數據

2024-11-22 13:30:00

2022-01-14 15:01:53

谷歌開源技術

2025-02-17 03:00:00

LLMsMoELLM

2022-03-01 15:15:41

AI樂譜論文

2025-02-14 09:30:00

視頻生成模型開源機器人

2024-10-21 08:24:29

Florence-2視覺語言模型VLM

2023-04-03 10:32:56

模型數據集

2020-05-29 10:23:19

Kubernetes容器開發

2020-05-28 15:05:19

Kubernetes對象模型

2018-02-09 05:02:48

數據中心網絡架構VL2

2010-01-13 10:52:46

Rational Ro

2025-03-03 03:35:00

DeepSeekXmind思維導圖

2023-06-06 14:09:32

模型開源

2025-04-14 00:30:00

2024-05-07 08:04:09

代碼格式化工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91豆花视频 | 亚洲精品一区在线 | 国产精品成人一区 | 久久欧美高清二区三区 | 日本精品一区二区三区四区 | 久久久久久久久久久久久久久久久久久久 | 精品国产乱码久久久 | 中文字幕视频一区二区 | 欧美888 | 亚洲成人一区二区 | 国产中文字幕网 | 国产一极毛片 | 天天操天天干天天爽 | 久久亚洲一区 | 国产精品久久久久久久久久久久久久 | 草b视频| 久久久久久成人 | 懂色tv | 人人鲁人人莫人人爱精品 | 亚洲欧美日本国产 | 亚洲人一区 | 91久久精品一区二区二区 | 中文字幕亚洲欧美日韩在线不卡 | 久久爱黑人激情av摘花 | 99re视频在线免费观看 | 亚洲精品国产a久久久久久 午夜影院网站 | 国产精品呻吟久久av凹凸 | 97精品久久 | 天天综合永久入口 | 久久精品屋| 亚洲第1页 | 午夜精品久久久久久不卡欧美一级 | 亚洲成人中文字幕 | 精品欧美一区二区在线观看视频 | 亚洲国产精品99久久久久久久久 | 动漫www.被爆羞羞av44 | 国产激情一区二区三区 | jizjizjiz中国护士18 | 国产999精品久久久久久 | 91美女在线观看 | 在线色|