成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話! 原創(chuàng)

發(fā)布于 2024-12-17 13:56
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

12月13日晚,國內(nèi)開源模型玩家深度求索發(fā)布了視覺模型 DeepSeek-VL2。這次DeepSeek視覺模型給這一領(lǐng)域帶來了不少看新看點(diǎn):

1、模型層面,視覺模型也可以使用 MoE 架構(gòu),而且可以配合動(dòng)態(tài)切圖

2、新增了不少生成玩法,如:視覺定位,模型可以根據(jù)提示識(shí)別出物體的邊界范圍,再比如梗圖理解和解析。

3、圖表理解:可以根據(jù)plot圖逆向生成代碼。

4、從OCR到故事生成:可以N張圖一期喂給模型,模型直接生成強(qiáng)相關(guān)的故事。

先上一張圖,讓大家品一品,一句提示,讓大模型明白圖中的人物:誰是淡定姐。

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片


當(dāng)然,DeepSeek-VL2 肯定是開源的了,具體型號有3B、16B 、 27B。模型和論文均已發(fā)布:

模型下載:https://huggingface.co/deepseek-ai

GitHub主頁:https://github.com/deepseek-ai/DeepSeek-VL2

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)

1.模型新升級

首先看數(shù)據(jù)方面,VL2 比上一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),引入梗圖理解、視覺定位、視覺故事生成等新能力。

模型架構(gòu)上,視覺部分使用切圖策略支持動(dòng)態(tài)分辨率圖像,語言部分采用 MoE 架構(gòu)低成本高性能。

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片


訓(xùn)練方法上,繼承 DeepSeek-VL 的三階段訓(xùn)練流程,同時(shí)通過負(fù)載均衡適配圖像切片數(shù)量不定的困難,對圖像和文本數(shù)據(jù)使用不同流水并行策略,對 MoE 語言模型引入專家并行,實(shí)現(xiàn)高效訓(xùn)練。

在不少視覺理解測試中,評分結(jié)果跟GPT4o、Qwen打平,甚至更好,關(guān)鍵是VL2可以用更少的參數(shù)量就能達(dá)到極好的效果。DeepSeek-VL2 模型展現(xiàn)出了強(qiáng)大能力,在各項(xiàng)評測指標(biāo)上均取得了極具優(yōu)勢的成績:

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片

具體的測評結(jié)果如下:

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片

2.動(dòng)態(tài)分辨率支持

據(jù)介紹,DeepSeek-VL2 僅使用一個(gè) SigLIP-SO400M 作為圖像編碼器,通過將圖像切分為多張子圖和一張全局縮略圖來實(shí)現(xiàn)動(dòng)態(tài)分辨率圖像支持。這一策略使得 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長寬比,這樣就可以適配更多應(yīng)用場景。

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片

3.圖表理解

更多科研文檔數(shù)據(jù)的學(xué)習(xí)使得 DeepSeek-VL2 可以輕易理解各種科研圖表。

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片

甚至連內(nèi)涵的梗圖大模型也可以理解到位,由于DeeSeek-VL2用了更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù),使得模型可以解析各種迷之能力,內(nèi)涵什么的,大模型簡直小菜一碟。

一道調(diào)侃考試難度的梗圖,讓他解釋下為什么好笑——

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片


4.Plot2Code(逆向:圖生代碼)

DeepSeek-VL2 同時(shí)具備圖像理解和代碼生成的功能,可以作為你逆向畫圖的好幫手。

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片

Prompt: Draw a plot similar to the image in Python.

5.視覺定位:視覺感知+語言推理

DS-VL2這次的一大看點(diǎn)就是視覺定位。用戶可以用一句話描述下物體,然后讓 DeepSeek-VL2 幫在圖像里找到符合描述的部分(注:模型本身只是輸出相應(yīng)物體的邊界框)。

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片

有了這項(xiàng)功能,就可以讓大模型做很多事情,比如higlight一下孫猴子、葫蘆娃什么的,甚至有幾個(gè)葫蘆娃也都可以標(biāo)出來!

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片

此外,視覺感知+語言推理,強(qiáng)強(qiáng)聯(lián)手還可以讓模型具備視覺語義的對話能力。

這就是我們之前在GPT-4o發(fā)布視覺對話中的功能,你跟模型視頻,問他哪款甜品適合自己,他能很懂你的需求做出推薦。

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片

6.故事生成

你也可以輸入多張圖像,讓模型把它們串聯(lián)起來,小老鼠、話多、魔法師、發(fā)光樹,四張圖片一上傳,讓VL2用這些圖片講一個(gè)故事,它也不會(huì)怵,秒懂圖里的角色,快速講出一篇《雪夜的奇遇》的童話來。

視覺模型進(jìn)入MoE時(shí)代!DeepSeek開源全新視覺模型VL2,逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話!-AI.x社區(qū)圖片


童話出版物機(jī)構(gòu)可以用上一用!

7.寫在最后:如何理解和用好多模態(tài)?

多模態(tài)可以說是今年以來大模型向前演進(jìn)的一個(gè)趨勢,從語言到視覺、聽覺等深入研究,既可以進(jìn)一步解鎖大模型的通用能力,同時(shí)也會(huì)讓未來的AI應(yīng)用更加繁榮和落地。

DeepSeek團(tuán)隊(duì)提到,視覺是人類獲取外界信息的主要來源,占據(jù)所有信息量的約 80%。然而在大模型時(shí)代,視覺方面的進(jìn)展卻遠(yuǎn)遠(yuǎn)落后于語言模型。

“我們堅(jiān)信,提升模型視覺能力的意義不僅在于支持更多的輸入模態(tài),更在于全方位提升模型的感知和認(rèn)知能力?!?/p>

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-12-17 14:06:06修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    主站蜘蛛池模板: 日韩在线中文字幕 | 久久久久国色av免费观看性色 | 国产免费黄网 | 亚洲成人黄色 | 中文精品视频 | 国色天香综合网 | 国产视频h | 中文字幕蜜臀 | 大学生a级毛片免费视频 | 国产视频日韩 | 久久中文一区二区 | 精品国产91亚洲一区二区三区www | 精品一区二区在线观看 | 久久久成人一区二区免费影院 | 91精品久久久久久久久中文字幕 | 一区影视| 视频羞羞| 国产一区二区三区在线 | 亚洲精品欧美精品 | 天天草天天爱 | 午夜大片| 久久久精品一区 | 亚洲欧美日韩网站 | 国产精品日韩欧美一区二区 | 国产精品久久久久久久白浊 | 日韩精品一区二区三区在线观看 | www.日日操 | 国产一级电影在线观看 | 插插插干干干 | 四虎影视在线 | 国产高清在线精品一区二区三区 | 精品av天堂毛片久久久借种 | 久久亚洲一区二区 | 国产免费一区二区 | 日本一区二区三区在线观看 | 在线伊人 | 久久国产精品视频 | 精品国产免费人成在线观看 | 午夜久久久久久久久久一区二区 | 亚洲精品久久久久久下一站 | 欧美精品一区二区三区四区 在线 |