Seedream 3.0 文生圖模型技術報告發布
字節跳動 Seed 團隊正式發布 Seedream 3.0 技術報告。Seedream 3.0 是一個原生高分辨率、支持中英雙語的圖像生成基礎模型,對比 Seedream 2.0,這一版本的整體性能表現有較大提升,尤其在分辨率、生圖結構準確性、數量準確性、多物體屬性關系、小字生成與排版、美感效果、真實度等方面有所突破。
具體亮點如下:
- 原生 2K 直出,適配多比例場景:無需后處理可直接輸出 2K 分辨率圖像,從手機端到巨幅海報場景的視覺需求均可滿足;
- 3 秒出圖,大幅提升創作效率:面向海報設計、視覺創意等需求,可實現 3 秒左右快速生成高品質圖像,實現“所想即所得”的實時創意交互;
- 小字更準,文本排版效果增強:優化小字體高保真生成、多行文本語義排版等業界難題,讓 AI 具備商業級圖文設計能力;
- 美感&結構提升,生成富有感染力:指令遵循進一步增強,人體和物體結構崩壞改善,且進一步弱化了出圖的 AI 感,實現從“看得清”到“有感染力”的審美提升。
Arxiv:https://arxiv.org/abs/2504.11346
技術呈現頁:https://team.doubao.com/tech/seedream3_0
Seedream 3.0 的研發始于 2024 年末,通過調研設計師等群體的實際需求,Seedream 團隊不僅將圖文匹配、結構、美感等行業共識性指標納入攻堅方向,同時,也將挑戰小字生成與復雜文本排版、2K 高清直出、快速圖片生成等業界難題作為核心目標。
2025 年 4 月,Seedream 3.0 正式上線,目前已在豆包、即夢等平臺全量開放。
面向結構、美感、人像、文字可用性、用戶偏好(Elo)等維度的主客觀評測結果顯示,Seedream 3.0 相比 2.0 版本綜合性能顯著提升,尤其在長文本渲染、真實人像生成方面表現出色。
Seedream 3.0 在不同維度上的表現。本圖各維度數據以最佳指標為參照系,已進行歸一化調整。
在權威競技場 Artificial Analysis 上,Seedream 3.0 與 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro、Ideogram 3.0 等文生圖模型同臺競技,在近期打榜中,一度排名第一。
Artificial Analysis 排名(截止 4 月 15 日下午)
值得一提的是,Seedream 3.0 在海報設計與創意生成方面較為突出,貼合了設計師群體的日常工作需求。
本文將從數據采集與處理、預訓練、后訓練、推理加速等方面,介紹 Seedream 3.0 的技術實現方法。1. :缺陷感知擴充數據集,并改進數據分布
對生成式 AI,大規模的高質量訓練數據必不可少。Seedream 3.0 從以下三個方面優化了數據采集和預處理流程:
- 圖像缺陷感知的訓練策略,大幅提升可用數據量
Seedream 2.0 中為了保證訓練數據的質量,采用了相對來說比較保守的數據篩選策略,去除了大量具有微小缺陷(水印、字幕、馬賽克等)的圖像。在 Seedream 3.0 中,團隊采用了全新的缺陷感知訓練策略,通過自研檢測器精準定位缺陷位置和面積,將缺陷較小的圖像保留,并在訓練時通過隱空間掩碼來避免圖像缺陷對損失函數的影響。這樣的設計使得有效數據集擴充超過 20%,且依舊保障了模型的穩定訓練。
- 視覺語義協同的采樣策略,有效平衡數據分布
傳統的文生圖數據集的構建方法通常面臨數據分布不均衡的挑戰。為了解決這個問題,團隊提出了視覺語義二維協同的采樣策略:在視覺方面,采用層次化聚類方法來保證不同視覺形態的平衡;在語義方面,采用 TF-IDF (詞頻-逆文檔頻率) 技術有效解決文本描述的長尾分布,通過在視覺和語義兩個方面的協同優化,大幅提升了視覺模式語義概念的均衡性。
- 研發圖文檢索系統,進一步改進數據分布
Seedream 3.0 團隊研發了一套圖文檢索系統,該系統在公開的評測集上取得相對領先的性能。基于這個圖文檢索系統,團隊對現有數據集進行了過濾和分布的校準,進一步提升了訓練數據的質量,為文生圖大模型的訓練打下了基礎。 2. 預訓練:聚焦多分辨率生成和語義對齊
在預訓練階段,團隊針對多語言語義理解、更加精準的文字渲染、多分辨率高質量圖像直出等目標,對模型架構和訓練策略做了多個方面的改進:
- 跨模態旋轉位置編碼,進一步加強文字渲染能力
為了進一步加強圖文匹配能力,團隊將上個版本提出的 Scaling RoPE 擴展成了跨模態的旋轉位置編碼(Cross-modality RoPE)。傳統的方法中大多對圖像特征采用 2D RoPE 方案,而對文本特征采用 1D RoPE 的方案,不利于兩種模態特征的對齊。在 Cross-modality RoPE 中,團隊將文本特征視為一個形狀為 [1, L] 的二維特征,并在上面施加 2D RoPE。同時,文本的 2D RoPE 的起始列 ID 從圖像 2D RoPE 的結束列 ID 后開始計算。這樣的設計方式可以更好地建模不同模態間特征的相互關系和每個模態內特征的相對位置,是 Seedream 3.0 模型能夠實現更強文字渲染能力的關鍵因素之一。
- 多分辨率混合訓練,讓2K圖像直出成為可能
上個版本模型采用了額外的 Refiner 來生成高分辨率的圖像,增加了額外的推理開銷。在 Seedream 3.0 中,團隊借助了 Transformers 架構對變長輸入序列的靈活處理能力,采用了多分辨率混合訓練的策略。預訓練的第一階段,團隊在平均分辨率為 256×256 的低分辨率圖像上進行訓練;在第二階段,團隊將平均分辨率為 512×512 到 2048×2048 的不同分辨率和長寬比的圖像進行混合訓練。為了提升訓練效率,團隊還設計了負載均衡策略保證不同 GPU 上的序列長度大致相等。最終訓練的模型能夠實現多種分辨率的圖像生成,在不經過額外 Refiner 的情況下實現2K圖像直出。
- 流匹配和特征對齊損失函數,高效建模數據分布
不同于 Seedream 2.0 中采用了去噪擴散模型的分數匹配(Score Matching)損失函數,Seedream 3.0 采用了流匹配(Flow Matching)的損失函數來實現條件速度場的預測。為了更好適配多分辨率混合訓練的信噪比變化,團隊根據不同訓練階段的平均分辨率大小來動態調整流匹配訓練過程中的時間步的分布。除此之外,團隊還采用了特征對齊損失函數(REPA)輔助模型在預訓練階段更快地收斂,這也是特征對齊損失函數在工業級大規模文生圖模型上的一次有效驗證。 3. 后訓練RLHF:進一步提升美感并拓展模型上限
在后訓練階段,團隊在 CT 和 SFT 階段設計了多版本的美感描述,并在 RLHF 階段通過擴展獎勵模型規模,使其具備多維度質量判別能力,進而全方位提升生成模型性能。
- 多粒度美感描述
Seedream 3.0 針對 CT 和 SFT 階段的數據專門訓練了多個版本的 Caption 模型。這些 Caption 模型在審美、風格、排版等專業領域提供了精準的描述。這確保了模型能夠更有效地響應各種提示,這些多粒度的 Caption 不僅提升了模型的可控性,也有助于協同PE提升模型整體性能。
- 獎勵模型拓展
不同于 Seedream 2.0 采用 CLIP 作為獎勵模型,Seedream 3.0 進一步優化了獎勵模型,并提升了其參數量。Seedream 3.0 采用視覺語言模型(VLM)作為獎勵模型,團隊借鑒 LLM 中生成式 RM 的經驗進行獎勵建模,這樣更易于通過 LLM 原本的 Scaling 能力提升獎勵準確性與魯棒性;同時,團隊將獎勵模型的參數量從 0.8B 拓展至 20B 以上,并發現一定的獎勵模型 Scaling 規律。 4. 高效推理:1K 分辨率生圖端到端僅需 3 秒
Seedream 3.0 采用多種策略實現了推理加速。除了對模型進行量化之外,對于擴散模型的一個重要加速維度就是推理時采樣步數的蒸餾。Seedream 3.0 采用了自研推理加速算法,具體來說包括以下幾個關鍵點:
- 一致性噪聲預測,提升采樣過程的平穩性
傳統的擴散模型在采樣過程中每個時間步的噪聲預測值的變化很大,這種采樣過程的不穩定是其需要大量采樣步數的原因之一。為了解決這個問題,團隊提出了讓網絡來預測全局噪聲期望,這在整個采 樣過程中具有很強的一致性,從而能夠有效壓縮總采樣步數。
- 重要時間步采樣,加速模型蒸餾訓練過程
為了提升模型蒸餾的效率,團隊提出了重要時間步采樣技術。該技術訓練了一個網絡來針對每個樣本預測重要的采樣時間步的分布,并基于這個分布得到最優的時間步進行模型蒸餾。結合重要時間步采樣技術,團隊能夠在 64 GPU days 之內完成對模型的蒸餾訓練過程。
利用上述技術,團隊實現了對模型的無損加速,能夠在保持圖文匹配、美學質量、結構準確度等指標幾乎不受影響的情況下實現高效生圖,1K 分辨率生圖端到端耗時僅需 3 秒。 寫在最后
Seedream 3.0 模型發布后,在海報創作、生成效率、結構與美感等方面的提升獲得了一定認可。
未來,Seedream 團隊期望嘗試在以下方向進一步研究和探索:探索更高效的結構設計:構建效果更好、成本更低、生成更快的文生圖模型;提升模型智能化水平:拓展模型對世界知識的理解,賦予模型交織生成等能力;探索數據、模型量級、獎勵模型等維度 Scaling 現象,并將認知積累應用于下一代模型中。
后續,團隊還將持續分享技術經驗,與業界共同推動視覺生成領域的發展。