成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Emu3: 統一多模態輸入與生成

發布于 2024-11-5 13:18
瀏覽
0收藏

BAAI剛剛開源了Emu3多模態大模型,僅使用單個transformer,使用下一個token預測的方法從0進行訓練!通過將圖像、文本和視頻tokenize到一個統一的離散的空間中,直接通過預測下一個token實現文本、圖像和視頻生成。

Homepage:??? https://emu.baai.ac.cn/????

Github: ???https://github.com/baaivision/Emu3???

Model: https://huggingface.co/BAAI/Emu3-Gen


Emu3: 統一多模態輸入與生成-AI.x社區


Emu3

Emu3 在生成和感知任務中超越了多個任務的專用模型,表現優于主流開源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2,同時不需要基于Diffison或組合多種不同架構。 

Emu3: 統一多模態輸入與生成-AI.x社區

Emu3 能夠根據文本輸入生成高質量的圖像,通過簡單地預測下一個視覺標記來實現。該模型自然支持靈活的分辨率和風格。 

Emu3 展現出強大的視覺語言理解能力,能夠感知物理世界并提供連貫的文本響應。值得注意的是,這種能力是在不依賴 CLIP 和預訓練 LLM 的情況下實現的。 

Emu3 通過預測視頻序列中的下一個token來因果生成視頻,與 Sora 的視頻擴散模型不同。在上下文中有視頻的情況下,Emu3 還能自然延伸視頻并預測接下來會發生什么。

方法

Emu3 采用混合語言、圖像和視頻數據從零開始進行訓練。語言數據來自 Aquila 的高質量中英文語料庫。圖像數據經過精心篩選,確保分辨率和美學質量,使用 LAION-AI 的美學預測工具過濾,并結合來自 DenseFusion 的補充數據。視頻數據涵蓋多種類別,經過分段、文本檢測和運動評估,以確保視頻質量。最后利用 GPT-4V 為圖像和視頻生成文本標注。

模型采用 SBER-MoVQGAN 訓練視覺編碼器,實現高效的視頻和圖像編碼。預訓練和后訓練過程中,Emu3 集成文本和視覺信息,通過下一標記預測任務優化生成質量,并運用直接偏好優化(DPO)提升模型與人類偏好的對齊。最終,模型通過圖像-文本訓練和指令調優增強視覺語言理解能力。

能力

視頻生成

Emu3: 統一多模態輸入與生成-AI.x社區

未來幀預測

Emu3: 統一多模態輸入與生成-AI.x社區

多模態對話

Emu3: 統一多模態輸入與生成-AI.x社區

Emu3: 統一多模態輸入與生成-AI.x社區


本文轉載自公眾號思源數據科學 作者:思源Source

原文鏈接:??https://mp.weixin.qq.com/s/J6MTvki9YjXU5aqcrfi8JA??



收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 精品国产乱码久久久久久1区2区 | 欧美日韩精品一区二区三区四区 | 91久操网| 国产黄色精品在线观看 | 精品美女 | 在线中文字幕国产 | 每日更新av | 9191av| 日本三级视频 | 亚洲精品久久久久久久不卡四虎 | 久久午夜精品 | 午夜精品久久久久久久久久久久久 | 日韩中文字幕网 | 亚洲免费在线视频 | 插插宗合网 | 国产日韩一区 | 亚洲一区av在线 | 久久精品视频免费看 | 国产精品久久久久免费 | 1级毛片| 久久久精品影院 | 神马久久久久久久久久 | 91精品国产91久久久久久 | 久久久久国产一区二区三区 | 欧美视频在线免费 | 国产成人精品久久 | 在线免费观看毛片 | 人人干人人干人人 | 99re视频在线观看 | 亚洲午夜精品一区二区三区他趣 | 日韩喷潮 | 欧美午夜剧场 | 欧美国产精品一区二区 | 精品一二三区视频 | 欧美日韩在线一区 | 国产精品一区二区在线 | 国产精品美女久久久久aⅴ国产馆 | 色婷婷久久综合 | 国产日韩免费视频 | 国产精品免费一区二区三区 | 中文字幕高清 |