Emu3: 統一多模態輸入與生成
BAAI剛剛開源了Emu3多模態大模型,僅使用單個transformer,使用下一個token預測的方法從0進行訓練!通過將圖像、文本和視頻tokenize到一個統一的離散的空間中,直接通過預測下一個token實現文本、圖像和視頻生成。
Homepage:??? https://emu.baai.ac.cn/????
Github: ???https://github.com/baaivision/Emu3???
Model: https://huggingface.co/BAAI/Emu3-Gen
Emu3
Emu3 在生成和感知任務中超越了多個任務的專用模型,表現優于主流開源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2,同時不需要基于Diffison或組合多種不同架構。
Emu3 能夠根據文本輸入生成高質量的圖像,通過簡單地預測下一個視覺標記來實現。該模型自然支持靈活的分辨率和風格。
Emu3 展現出強大的視覺語言理解能力,能夠感知物理世界并提供連貫的文本響應。值得注意的是,這種能力是在不依賴 CLIP 和預訓練 LLM 的情況下實現的。
Emu3 通過預測視頻序列中的下一個token來因果生成視頻,與 Sora 的視頻擴散模型不同。在上下文中有視頻的情況下,Emu3 還能自然延伸視頻并預測接下來會發生什么。
方法
Emu3 采用混合語言、圖像和視頻數據從零開始進行訓練。語言數據來自 Aquila 的高質量中英文語料庫。圖像數據經過精心篩選,確保分辨率和美學質量,使用 LAION-AI 的美學預測工具過濾,并結合來自 DenseFusion 的補充數據。視頻數據涵蓋多種類別,經過分段、文本檢測和運動評估,以確保視頻質量。最后利用 GPT-4V 為圖像和視頻生成文本標注。
模型采用 SBER-MoVQGAN 訓練視覺編碼器,實現高效的視頻和圖像編碼。預訓練和后訓練過程中,Emu3 集成文本和視覺信息,通過下一標記預測任務優化生成質量,并運用直接偏好優化(DPO)提升模型與人類偏好的對齊。最終,模型通過圖像-文本訓練和指令調優增強視覺語言理解能力。
能力
視頻生成
未來幀預測
多模態對話
本文轉載自公眾號思源數據科學 作者:思源Source
原文鏈接:??https://mp.weixin.qq.com/s/J6MTvki9YjXU5aqcrfi8JA??
