BLIP3-o統一圖像生成與理解,多模態融合趨勢顯現
需要解決的問題
統一圖像理解和生成:
- 以前的方案沒有融合圖像理解和生成量大任務,例如:在生成復雜場景、特定對象或高質量圖像時表現不足,同時在圖像理解和生成任務之間缺乏有效的協同訓練機制。
提升生成質量和效率:
- 傳統的基于VAE(變分自編碼器)的圖像表示方法在生成圖像時存在分辨率限制和訓練效率低下的問題
- 在統一框架中高效地生成高質量圖像并保持圖像理解能力,是需要解決的關鍵問題之一。
核心思想
- 融合自回歸模型和擴散模型:
借鑒了OpenAI的GPT-4o圖像生成架構,采用自回歸模型生成中間視覺特征,再通過擴散模型生成最終圖像。
這種結合方式在充分發揮了自回歸模型在語義理解和擴散模型在高質量圖像生成方面的優勢。
- 統一圖像表示和任務空間:
使用CLIP(Contrastive Language-Image Pre-training)模型的圖像特征作為目標表示,將圖像理解和圖像生成任務統一到同一個語義空間中。
確保模型在處理兩個任務時能夠共享語義信息,提高任務之間的協同性和一致性。
- 優化訓練策略:
通過對比不同的訓練策略,包括聯合訓練和順序訓練,選擇了順序訓練方法。
即先訓練圖像理解模塊,凍結其參數后再訓練圖像生成模塊,以避免任務之間的干擾并充分利用預訓練的語言模型能力。
技術亮點
- CLIP + Flow Matching架構:
在圖像生成模塊中,采用CLIP作為圖像編碼器,結合流匹配(Flow Matching)損失函數來訓練擴散模型。
CLIP能夠提取豐富的語義特征,而流匹配損失函數能夠更好地捕捉圖像分布,從而生成更高質量和多樣化的圖像。
- 高效的擴散變換器(DiT):
基于Lumina-Next模型的擴散變換器架構,引入了3D旋轉位置嵌入(Rotary Position Embedding),能夠有效地編碼時空結構,同時采用夾心歸一化(Sandwich Normalization)和分組查詢注意力(Grouped-Query Attention),提高了模型的穩定性和生成效率。
- 高質量指令微調數據集:
精心策劃了一個包含6萬個高質量指令-圖像對的數據集(BLIP3o-60k),通過GPT-4o生成多樣化場景、對象和手勢的描述,用于指令微調。
訓練步驟
- 圖像理解模塊訓練:
使用預訓練的Qwen 2.5 VL模型作為圖像理解模塊的骨干網絡,跳過圖像理解任務的訓練階段,直接構建圖像生成模塊。
- 圖像生成預訓練:
數據準備:對于8B模型,結合約2500萬開源數據(如CC12M、SA-1B和JourneyDB)和額外的3000萬專有圖像,所有圖像的描述由Qwen2.5-VL-7B-Instruct生成,平均長度為120個標記。同時,為了提高對不同長度提示的泛化能力,還混入了約10%(600萬)較短的描述(約20個標記)。對于4B模型,僅使用開源數據進行訓練。
模型訓練:凍結Qwen 2.5 VL骨干網絡,訓練擴散變換器模塊。通過自回歸模型生成中間視覺特征,再利用擴散變換器和流匹配損失函數來生成接近真實CLIP特征的圖像特征,最終通過擴散解碼器生成圖像。
- 指令微調:針對預訓練階段未能充分覆蓋的復雜人類手勢、常見物體、地標和簡單文本等類別,通過GPT-4o生成約10k提示-圖像對,創建針對性的數據集,對模型進行指令微調,以提高模型在這些領域的生成能力和視覺審美質量。
實驗結果
- 圖像理解任務:BLIP3-o 8B模型在多個圖像理解基準測試(如VQAv2、MMBench、SeedBench等)中取得了最佳性能,顯示出其在圖像理解方面的強大能力。
- 圖像生成任務:在圖像生成基準測試中,BLIP3-o 8B模型在GenEval(衡量提示對齊)上得分為0.84,在WISE(評估世界知識推理能力)上得分為0.62,雖然在DPG-Bench上的得分較低,但通過人類研究發現,BLIP3-o在視覺質量和提示對齊方面均優于Janus Pro 7B模型,表明其生成的圖像更符合人類偏好且具有更好的視覺效果。
- 指令微調的效果:通過僅使用60k提示-圖像對進行指令微調,模型在提示對齊和視覺審美方面取得了顯著提升,許多生成偽影也得到了快速減少,證明了指令微調數據集的有效性。
??https://arxiv.org/pdf/2505.09568??
本文轉載自??CourseAI??,作者:CourseAI
