成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺自回歸生成理解編輯大一統!北大團隊多模態新突破,訓練數據代碼全面開源

人工智能
盡管VARGPT-v1.1取得了重大進展,但團隊指出目前版本和商用生成模型之間仍存在差距,此外在圖像編輯能力方面也存在局限性。

最近Google的Gemini Flash和OpenAI的GPT-4o等先進模型又一次推動了AI浪潮。這些模型通過整合文本、圖像、音頻等多種數據形式,實現了更為自然和高效的生成和交互。

北京大學團隊繼VARGPT實現視覺理解與生成任務統一之后,再度推出了VARGPT-v1.1版本。

該版本進一步提升了視覺自回歸模型的能力,不僅在在視覺理解方面有所加強,還在圖像生成和編輯任務中達到新的性能高度

目前訓練、推理和評估代碼,數據,模型均已開源。

圖片圖片

VARGPT-v1.1延續了前作的設計理念,采用了創新的“next-token”與“next-scale”自回歸預測機制,同時引入四大關鍵創新點:

  1. 迭代視覺指令微調與強化學習結合的訓練策略: 通過交替進行監督微調(SFT)與基于偏好直接優化(DPO)的強化學習,有效提高了模型的圖像生成質量。模型逐步提升圖像生成分辨率,從256×256擴展至512×512像素,圖像細節與真實性顯著增強。
  2. 更大規模的視覺生成訓練數據集: VARGPT-v1.1采用了多達830萬條視覺生成指令數據,包括真實世界的LAION-COCO數據集以及由Midjourney與Flux模型生成的合成數據。大規模數據的使用顯著擴大了模型對不同類型圖像生成的泛化能力。
  3. 升級語言模型主干至Qwen2: 引入最新的Qwen2-7B語言模型主干,利用其高效的注意力機制與更好的token化策略,有效提升了模型的視覺理解能力。
  4. 無架構修改的圖像編輯能力: VARGPT-v1.1在不改動模型架構的基礎上,通過專門構建的圖像編輯數據集,實現了圖像編輯功能。這使得模型不僅可以理解和生成圖像,還能根據用戶指令對圖像進行編輯。

圖片圖片

1.模型架構

VARGPT-v1.1 遵循 VARGPT 的模型架構設計,以統一視覺理解和生成,其架構如上圖所示。由(1)一個大語言模型(Qwen2-7B)、視覺編碼器和用于視覺理解的理解投影器;(2)視覺解碼器和用于視覺生成的雙生成投影器組成。VARGPT-v1.1在大語言模型主干中采用因果注意力機制,同時在視覺解碼器中使用塊因果注意力機制。

圖片圖片

2.訓練策略

圖片圖片

VARGPT-v1.1的訓練遵循VARGPT的三階段訓練方法,整體訓練過程如上圖所示。區別于VARGPT,在第三階段, VARGPT-v1.1提出了迭代指令微調和強化學習的方法,以增強統一模型的視覺生成能力。具體來說,第三階段的迭代訓練過程如下圖所示:

圖片圖片

2.1 視覺指令微調

視覺生成的指令微調旨在通過監督微調賦予VARGPT-v1.1視覺生成能力。這個階段,首先解凍視覺解碼器和兩個投影器,并凍結其他參數以進行有監督微調,如上圖所示。本文采用一種逐步提高圖像分辨率的訓練方法來訓練VARGPT-v1.1。具體來說,在第一個SFT階段,圖像分辨率設置為256x256,模型訓練40K步,以賦予其生成圖像的初始能力。在第二個SFT階段,圖像分辨率設置為512x512 ,模型訓練30K步,以進一步增強其高分辨率視覺生成能力。該視覺指令微調階段的訓練數據包括8.3M收集和構建的指令對。

圖片圖片

2.2 基于人類反饋的強化學習

除了指令微調外,VARGPT-v1.1提出迭代指令微調與強化學習來訓練視覺自回歸的大視覺語言模型。VARGPT-v1.1通過將生成質量的提升表述為一個偏好選擇問題,并采用直接偏好優化(DPO)來對模型進行訓練。這種方法激勵模型傾向于生成高質量的圖像輸出,同時拒絕質量較差的輸出。具體來說,VARGPT-v1.1訓練時將傾向于拒絕低質量的圖像,接受高質量的圖像來優化策略模型:

圖片圖片

2.3 視覺編輯的有監督微調

經過有監督微調(SFT)和直接偏好優化(DPO)的多階段漸進式分辨率迭代后,我們系統地構建了一個包含來自Style-Booth的11325個樣本的指令調優數據集,以使VARGPT-v1.1具備視覺編輯能力。該流程通過視覺編碼器處理目標圖像,同時利用編輯指令作為文本提示,來監督模型對編輯后圖像分布的逼近。這種方法實現了:(1)架構保留式適配,無需引入的冗余設計實現編輯能力;(2)通過聯合文本-圖像標記預測實現統一的多模態編輯。在該監督微調期間,所有模型參數均未凍結,以在保持生成多樣性的同時最大化編輯保真度。

3.實驗與結果

遵循VARGPT和其他多模態大語言模型的設置,本文在一系列面向學術任務的基準測試和最新的視覺理解基準測試中,評估了VARGPT-v1.1在視覺理解方面的有效性,總共涉及11個基準測試:在包括 MMMU、MME、MMBench、SEEDBench 和 POPE (包括不同的設置,隨機、流行和對抗)在內的多模態基準上進行零樣本多模態評估。總體來說,VARGPT-v1.1 實現了顯著的視覺理解性能,在各種統一模型和各類多模態大語言模型的對比上均占優勢。

圖片圖片

3.1 Zero-shot multi-modal evaluation

對VARGPT-v1.1與各種先進的多模態模型進行了全面評估,結果如下表。實驗結果表明VARGPT -v1.1在所有基準測試中表現出色,在MMBench上達到81.01,在SEED上達到76.08,在MMMU上達到48.56,取得了先進水平的結果。此外,在LLaVA - Bench基準測試上的持續性能提升驗證了我們的架構選擇和訓練策略的有效性,確立了VARGPT-v1.1作為一個強大且通用的多模態模型的地位。

圖片圖片

3.2 Performance comparison on visual question answering tasks

本文在多個視覺問答數據集上評估了VARGPT - v1.1的性能,并將其與幾種最先進的多模態模型進行了比較。結果見表3。我們的實驗結果表明VARGPT-v1.1在所有視覺問答(VQA)基準測試中均取得了卓越的性能,相較于現有模型有顯著提升。

圖片圖片

3.3 Performance comparison on visual question answering tasks.

為了評估VARGPT的視覺生成能力,我們使用廣泛采用的GenEval基準和DPG - Bench基準進行了全面評估,定量結果分別見下表。這些數據集為文本到圖像的生成能力提供了嚴格的評估框架。我們的實驗結果表明,VARGPT-v1.1優于許多專門的圖像生成模型,包括基于擴散的架構(如SDv2.1)和自回歸方法(如LlamaGen)。

圖片圖片

3.4 Performance comparison on the DPG-Bench benchmark.

圖片圖片

3.5 視覺理解的比較

VARGPT-v1.1 展現了更強的理解和解讀視覺內容中幽默元素的能力。

圖片圖片

3.6 多模態圖像文本生成

VARGPT-v1.1生成的一些512 x 512的樣本如下所示。VARGPT-v1.1支持用戶輸入文本和圖像指令,并同時輸出文本和圖像的混合模態數據。此外,與現有的統一模型基線相比,我們的方法在準確的文本到圖像生成方面取得了顯著改進。如下圖所示,我們展示了VARGPT-v1.1生成的代表性圖像輸出和對話交互。定性分析表明,VARGPT-v1.1始終能生成與給定文本指令緊密匹配的高質量圖像。

圖片圖片

3.7 圖像編輯能力

視覺編輯結果可視化如下圖所示,本文對視覺編輯能力進行的定性評估表明,VARGPT-v1.1具備基本的圖像操作能力。這種能力僅通過使用視覺編輯指令微調數據進行訓練即可獲得,無需對架構進行任何修改。此外,這些觀察結果證實了統一模型架構在單一框架內實現通用視覺理解、生成和編輯方面具有巨大潛力。

圖片圖片

4.結論與展望

VARGPT-v1.1通過采用為多模態大模型設計的靈活的訓練策略使其具有可擴展性,同時為多模態系統架構設計開辟了新的技術途徑。盡管VARGPT-v1.1取得了重大進展,但團隊指出目前版本和商用生成模型之間仍存在差距,此外在圖像編輯能力方面也存在局限性。未來,團隊將進一步擴展訓練數據規模,探索新型token化方法,并嘗試更多的強化學習策略,進一步推動多模態生成理解統一大模型的發展。

project: https://vargpt1-1.github.io/
code: https://github.com/VARGPT-family/VARGPT-v1.1
arxiv: https://arxiv.org/abs/2504.02949

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-03-13 10:18:42

2023-05-10 14:58:06

開源模型

2025-06-09 09:50:00

VeactReact

2025-04-14 09:38:00

2024-03-04 00:45:00

視頻訓練

2023-09-19 09:22:54

數據訓練

2017-12-15 17:14:10

云端

2025-06-13 08:46:00

2024-08-26 07:40:00

AI訓練

2015-05-06 13:52:52

微軟外媒

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動應用

2023-04-11 09:43:21

模型AI

2024-12-10 09:49:53

2023-03-13 13:40:20

機器學習AI

2014-07-29 13:25:43

WWDC 2014 S

2023-07-17 08:03:03

Shell腳本SQL

2025-03-18 09:29:54

2023-09-14 09:44:29

2017-06-27 10:49:48

Intel 300Wi-Fi芯片
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 视频一区二区中文字幕 | 成人欧美日韩一区二区三区 | 羞羞视频在线观免费观看 | 超碰精品在线观看 | 91传媒在线观看 | 久久欧美高清二区三区 | 中文字幕免费在线 | 日韩成人在线观看 | 国产欧美久久一区二区三区 | 日韩精品成人免费观看视频 | 91精品中文字幕一区二区三区 | 亚洲午夜精品在线观看 | 天天天操天天天干 | 日韩精品一区二区三区在线观看 | 一区二区三区四区电影视频在线观看 | 午夜精品久久久 | 久久69精品久久久久久久电影好 | 国产精品美女久久久久aⅴ国产馆 | 91黄在线观看 | 国产精品99久久久久 | 午夜精品久久久久久久久久久久 | 日日操夜夜操天天操 | 天天摸天天看 | 成人做爰999 | 日韩欧美大片在线观看 | 久热中文字幕 | 亚洲成人免费视频 | 婷婷色在线播放 | 国产一区二区三区在线视频 | 国产乱码精品一品二品 | 污污的网站在线观看 | 午夜免费在线 | 337p日本欧洲亚洲大胆鲁鲁 | 国产日韩精品一区二区 | 婷婷色婷婷 | 亚洲精品短视频 | 久久国产精品视频 | 中文字幕成人在线 | 日本a视频 | 亚洲国产精品久久 | a级片在线观看 |