開源全能圖像模型媲美GPT-4o！理解生成編輯同時搞定，解決擴散模型誤差累計問題

2025-05-12 08:50:00

人工智能新聞

在模型融合訓練、圖像Token數量提升、ScaleUp數據集和模型大小等等方面，Nexus-Gen依然存在著大量的優化潛力，目前ModelScope團隊在這些不同方向，還在進行更深入的探索。

OpenAI GPT-4o發布強大圖片生成能力后，業界對大模型生圖能力的探索向全模態方向傾斜，訓練全模態模型成研發重點。

開源的MLLMs和擴散模型已經過大規模預訓練，其從零開始訓練統一任務，不如取長補短，將MLLMs的語言建模能力，與擴散模型的像素級圖像建模能力，進行有機的結合。

基于這個思路，ModelScope團隊提出可同時完成圖像理解、生成和編輯的統一模型Nexus-Gen，在圖像質量和編輯能力上達GPT-4o同等水平，并將成果全方位開源，望引發開發者討論，促進All-to-All模型領域發展。

模型先進行圖像生成，然后進行圖像理解的可視化案例：

Nexus-Gen技術細節

總體框架

Nexus-Gen采用了與GPT-4o類似的 token → [transformer] → [diffusion] → pixels 技術路線，融合了SOTA MLLMs的強大文本預測能力和Diffusion模型的強大圖像渲染能力，其總體架構如圖所示。

飛書文檔 - 圖片

作為一個All-to-All模型，Nexus-Gen的輸入和輸出都支持圖像和文本模態，自回歸Transformer輸出的文本Token進行分類后解碼成對應的輸出文本。而輸出的視覺Token的embeddings則會作為條件輸入給Vision Decoder中解碼為輸出圖像。

之前的All-to-All模型大多直接使用自回歸Transformer直接對圖像的像素空間進行建模，然后用VAE等模型解碼為圖像，導致圖像質量較差。

為了保證圖像質量，Nexus-Gen選擇在高維特征空間對圖像進行建模，并選擇SOTA的擴散模型作為視覺解碼器。

相比于處理單一任務的模型，All-to-All模型的潛力在于圖像理解、生成、編輯等任務可以相互促進、互相組合。

為了完成這一目標，將模型的輸入和輸出特征空間限定在同一個連續高維特征空間，統一使用Vision Encoder編碼圖像得到高維特征。對于理解任務，這些特征直接輸入模型中作為先驗。對于生成任務，這些特征則作為真值指導模型的訓練。

預填充自回歸策略

在訓練階段，自回歸模型直接使用真值作為輸入序列，然后將輸入序列左移一位后計算損失函數。在推理階段，則采用Token-by-Token的自回歸：即每預測一個Token，就將其送回輸入，預測后續的Token。

團隊發現，將這種自回歸范式，直接運用在連續特征空間的圖像Embedding預測上，會帶來比較嚴重的誤差累計問題。

如下圖所示，從第一個黃色的圖像Token開始，預測的Embedding就存在誤差。將帶誤差的Embedding送回輸入中，會導致后續的Embedding預測誤差不斷增大，最終導致整個圖像Token序列預測失敗。

飛書文檔 - 圖片

誤差累計本質上是由訓練和推理行為不一致導致的。為了解決這個問題，魔搭團隊提出了預填充自回歸的策略，如下圖所示。在訓練時使用可學習特殊Token填充對應的圖像Embedding位置，這樣就可以讓模型學習直接預測任意位置的圖像Token的能力。

在推理階段，只要預測到圖像的起始Token BOI，就直接預填充N個特殊Token到輸入序列中。通過這種方式，能夠保證訓練和推理階段行為的一致性，從而消除誤差累計。

任務構建與訓練細節

在Nexus-Gen工作之前，沒有看到過在統一的理解、生成和編輯任務上做訓練的先例。所以魔搭團隊首先從工程上，探索使用類messages格式來定義所有任務的數據格式。如下圖所示。

之后，團隊從開源社區收集了約25M訓練數據并轉化為以上統一的格式，其中，圖像理解數據6M，圖像生成數據12M，圖像編輯數據7M。

部分數據使用Qwen-VL-max API進行了重新標注。其中，圖像編輯數據包含了團隊在ModelScope社區最新開源的，圖像編輯數據集系列ImagePulse。

這一系列數據集中，針對GPT-4o不同的圖像編輯能力，包含了添加、去除、改變、風格遷移等原子能力而生成的，大約1M高質量樣本。

此外后續團隊也會將其他在訓練過程中使用到的全部數據，都進行開源。

由于Nexus-Gen將圖像特征統一在Vision Encoder的高維空間中，因此自回歸模型部分和擴散模型部分可以分開訓練。

自回歸模型使用魔搭開源的SWIFT框架訓練，擴散模型則使用了魔搭的DiffSynth-Studio框架訓練。下表詳細描述了訓練過程的細節。

自回歸模型采用了三階段訓練策略，前兩個階段逐步將圖像生成和圖像編輯能力嵌入語言模型中，最后一個階段則采用少量高質量數據來提升模型生圖質量。

擴散模型的訓練目標是將輸入條件由原本文本輸入調整為圖像Embedding輸入，采用單階段訓練策略。

Nexus-Gen 功能展示

Nexus同時具備圖像理解、生成和編輯能力，以下是每個能力的可視化案例。

圖像理解

圖像生成

圖像編輯

未來展望

Nexus-Gen的誕生，驗證了從SOTA的MLLMs和擴散模型出發，來對齊以GPT-4o為代表的閉源SOTA的可能性。其效果與GPT-4o具備許多共同點，比如圖像編輯會導致原圖部分變化、可以文本潤色進行多樣化圖像生成等；團隊也發現了許多OpenAI團隊沒有揭露的現象，比如圖像編輯能力極大受益于圖像生成，統一模型使多prompt編輯、故事性編輯成為可能等等。

ModelScope社區會持續將探索過程的模型權重、訓練數據以及工程框架全部開源，歡迎社區對Nexus-Gen和All-to-All統一模型的技術未來進行廣泛交流。

論文鏈接：https://arxiv.org/pdf/2504.21356
代碼鏈接：https://github.com/modelscope/Nexus-Gen
模型鏈接：https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen
數據集（ImagePulse）鏈接：https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40

責任編輯：張燕妮來源：量子位

模型訓練數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看