成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產多模態卷上下文長度:原生支持24K圖文輸入輸出,圖像視頻理解對標GPT4V

人工智能
為了兼顧模型對于視覺內容的理解和語言創作能力,IXC2.5采用了一種 PLoRA(局部LoRA)的模型架構,即對于視覺Token單獨增加一組LoRA參數進行編碼,通過這種方式讓新增的LoRA參數只影響視覺Token,一方面可以幫助模型更好的理解視覺信息,同時減少對模型語言能力的影響。

國產多模態大模型,也開始卷上下文長度。

書生·浦語靈筆(InternLM-XComposer)多模態大模型升級2.5版本——

原生支持24K多模態圖文上下文,超過20輪的圖文交互,具備圖像視頻理解、網頁創作、圖文寫作等多項功能。

該開源模型一出,一度在Hugging Face登上熱榜第五。

圖片圖片

作為8B量級性能最優秀的多模態大模型之一,它在多項評測性能上對標GPT4V和Gemini Pro。

圖片圖片

而除了支持長上下文輸入,InternLM-XComposer 2.5版本(以下簡稱IXC 2.5)同時訓練了長序列輸出能力,模型支持高質量網頁創作和文章生成。

兼容三種多模態理解能力

IXC 2.5同時兼顧了多模態模型的理解和內容輸出能力,主要包括三種多模態理解能力。

包括超過4K分辨率的圖像理解、多輪多圖超長對話、精細視頻內容分析。

來具體看看大模型實力如何。

高分辨率圖像理解,它支持分析文檔、網頁、圖表等信息豐富的超高清圖像。

比如扔給它之前的文章,圖像分辨率為1312x22619像素,并詢問IXC 2.5關于截圖內容的問題。

圖片圖片

嗯,還能知道是量子位公眾號。

就是詢問一些圖中的論文細節,它也能正確回答。

多輪多圖超長對話,支持自由形式的多輪多圖對話,進行超過20輪圖文交互,提供自然的多模態交互體驗。

為了實現這一能力,研究團隊構造了第一個多模態長上下文指令數據集MMDU。該數據集包括了平均15輪圖文對話,最大20張圖像,最多對話輪次可以到27次,數據集現已開源。

圖片圖片

精細視頻內容分析,在多項視頻大模型評測中表現出色。

圖片圖片

研究團隊構造了ShareGPT4Video圖像描述數據集,包括了3000個小時的精細視頻描述標注。視頻數據來源多樣,包括Panda,EGO-4D,Pexels,Pixabay等,涵蓋豐富的場景,數據集已經開源。

圖片圖片

除此之外,內容輸出的能力也得到了升級。

網頁創作。IXC 2.5擴展了網頁代碼的編寫能力,可以根據圖文指令輸入,編寫對應的網頁前端和交互代碼(HTML,CSS,JavaScript)。

在該能力的支持下,IXC 2.5實現了三個實用的功能,包括:

(1)網頁截圖轉代碼:輸入網頁截圖,輸出對應截圖的前端代碼
(2)語言指令做網頁:輸入網頁制作要求,創作網頁代碼并渲染
(3)個人簡歷做網頁:輸入個人簡歷PDF,制作對應個人簡歷的主頁

圖片圖片

圖文寫作。本次IXC 2.5構造了2000篇涵蓋各種文體,包括:高考作文、散文、小說等不同文風文章的文筆質量打分數據,并使用這些數據訓練的一個reward model。

使用該reward model進一步構造了30000篇文章質量偏好數據,用于直接偏好學習(DPO)訓練,大幅提升了文章創作的文筆和穩定性。IXC 2.5不僅支持高質量寫作,還可以給出文章寫作評價。

以2024高考新課標Ⅱ卷為例,IXC 2.5不僅可以寫出文筆優秀的高考作文,對于作文的點評也顯得非常專業。

圖片圖片

圖像與視頻理解的統一架構

今年4月,IXC團隊提出了4K分辨率圖像多模態大模型方案IXC2-4KHD,可以處理任意長寬比的高分辨率圖像。

IXC 2.5基于4KHD框架進行擴展,實現了一套可以統一處理高分辨率圖像和視頻的多模態模型架構。

視頻幀拼圖

對于視頻數據,IXC 2.5會均勻采樣視頻幀,并將視頻幀拼成一個超長的高分辨率圖片。每一幀圖像上用文字標記視頻的時序信息。

全局特征(Global View)

將整張高分辨率圖像整體resize到560x560大小,用ViT抽取全局特征。

局部特征(Local View)

將高分辨率圖像切塊,每塊560x560分辨率,分別抽取局部特征

特征拼接:將Global View和Local View的特征拼成一個序列,用’\n’ token標記圖像長寬比布局,用’sp’ token分隔全局特征和局部特征。

圖片圖片

為了兼顧模型對于視覺內容的理解和語言創作能力,IXC2.5采用了一種 PLoRA(局部LoRA)的模型架構,即對于視覺Token單獨增加一組LoRA參數進行編碼,通過這種方式讓新增的LoRA參數只影響視覺Token,一方面可以幫助模型更好的理解視覺信息,同時減少對模型語言能力的影響。

圖片圖片

IXC社區提供完善的量化、部署、微調代碼支持,提供在線demo和在線demo的本地運行代碼,包括:

  • 量化和部署(LMDepoly支持):IXC 2.5由LMDeploy項目支持模型部署和量化,只需要不到24GB顯存就可以運行,同時支持多卡推理降低單卡顯存要求。

圖片圖片

  • 微調(原生支持&Modelscope Swift):IXC 2.5支持使用研究團隊開源的微調代碼,以及Modelscope Swift項目支持的微調代碼兩種實現,使用LoRA微調最少只需要32GB顯存。
  • Demo代碼:IXC 2.5的demo代碼使用Whisper和MeloTTS支持了語音輸入輸出,支持本地部署,代碼現已開源。

項目地址:
https://github.com/InternLM/InternLM-XComposer論文地址:
https://arxiv.org/pdf/2407.03320


責任編輯:武曉燕 來源: 量子位
相關推薦

2024-04-07 00:45:00

開源模型

2025-04-24 10:31:54

2023-05-19 10:16:27

AIGPT-4

2023-07-11 10:02:23

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2024-06-12 11:49:44

2023-10-23 12:28:18

AI訓練

2020-07-24 10:00:00

JavaScript執行上下文前端

2024-03-04 12:32:20

模型訓練

2023-11-13 07:48:08

AI檢測

2024-03-14 08:11:45

模型RoPELlama

2024-06-03 14:24:00

2019-05-06 14:36:48

CPULinux寄存器

2023-11-17 18:06:15

2023-05-14 14:15:00

GPT-4AI

2023-11-22 16:51:53

2023-08-14 08:04:13

2015-07-08 10:25:05

Javascript上下文作用域

2023-03-10 13:03:09

人工智能模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美第一页 | 精品国产91乱码一区二区三区 | 黑人巨大精品欧美一区二区一视频 | 一区二区欧美在线 | 日韩播放 | 91av大全| 91精品国产综合久久小仙女图片 | 天天夜碰日日摸日日澡 | 免费在线观看av | 成人av在线网站 | 成在线人视频免费视频 | 国产日韩视频 | 日干夜干 | 国产在线a| 国产剧情一区二区三区 | 国产精品高潮呻吟 | 亚洲日本视频 | 亚洲一页| 日韩三片 | 色毛片 | 一级毛片在线播放 | 国精产品一区一区三区免费完 | 免费激情网站 | 草久久免费视频 | 免费黄色成人 | 亚洲精品99999 | 中文字幕第一页在线 | 鲁一鲁资源影视 | 一区二区三区回区在观看免费视频 | 日韩视频高清 | 91在线第一页 | 男女污污网站 | 国产伦精品一区二区三区精品视频 | 久久极品 | 国产精品久久久久久久久久 | 精品视频在线播放 | 午夜亚洲| 最新高清无码专区 | 中文字幕综合 | 国产精品黄色 | 成人免费影院 |