成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

Emu3: 統一多模態輸入與生成

發布于 2024-11-5 13:18

瀏覽

0收藏

BAAI剛剛開源了Emu3多模態大模型，僅使用單個transformer，使用下一個token預測的方法從0進行訓練！通過將圖像、文本和視頻tokenize到一個統一的離散的空間中，直接通過預測下一個token實現文本、圖像和視頻生成。

Homepage:??? https://emu.baai.ac.cn/????

Github: ???https://github.com/baaivision/Emu3???

Model: https://huggingface.co/BAAI/Emu3-Gen

Emu3: 統一多模態輸入與生成-AI.x社區

Emu3

Emu3 在生成和感知任務中超越了多個任務的專用模型，表現優于主流開源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2，同時不需要基于Diffison或組合多種不同架構。

Emu3: 統一多模態輸入與生成-AI.x社區

Emu3 能夠根據文本輸入生成高質量的圖像，通過簡單地預測下一個視覺標記來實現。該模型自然支持靈活的分辨率和風格。

Emu3 展現出強大的視覺語言理解能力，能夠感知物理世界并提供連貫的文本響應。值得注意的是，這種能力是在不依賴 CLIP 和預訓練 LLM 的情況下實現的。

Emu3 通過預測視頻序列中的下一個token來因果生成視頻，與 Sora 的視頻擴散模型不同。在上下文中有視頻的情況下，Emu3 還能自然延伸視頻并預測接下來會發生什么。

方法

Emu3 采用混合語言、圖像和視頻數據從零開始進行訓練。語言數據來自 Aquila 的高質量中英文語料庫。圖像數據經過精心篩選，確保分辨率和美學質量，使用 LAION-AI 的美學預測工具過濾，并結合來自 DenseFusion 的補充數據。視頻數據涵蓋多種類別，經過分段、文本檢測和運動評估，以確保視頻質量。最后利用 GPT-4V 為圖像和視頻生成文本標注。

模型采用 SBER-MoVQGAN 訓練視覺編碼器，實現高效的視頻和圖像編碼。預訓練和后訓練過程中，Emu3 集成文本和視覺信息，通過下一標記預測任務優化生成質量，并運用直接偏好優化（DPO）提升模型與人類偏好的對齊。最終，模型通過圖像-文本訓練和指令調優增強視覺語言理解能力。

能力

視頻生成

Emu3: 統一多模態輸入與生成-AI.x社區

未來幀預測

Emu3: 統一多模態輸入與生成-AI.x社區

多模態對話

Emu3: 統一多模態輸入與生成-AI.x社區

Emu3: 統一多模態輸入與生成-AI.x社區

本文轉載自公眾號思源數據科學作者：思源Source

原文鏈接：??https://mp.weixin.qq.com/s/J6MTvki9YjXU5aqcrfi8JA??

標簽

贊

收藏

回復

舉報

回復

相關推薦

字節跳動發布統一多模態大模型 Show-o!

AI論文解讀 ? 4508瀏覽 ? 0回復
多模態與偽多模態大模型

AI探索時代 ? 2627瀏覽 ? 0回復
從OmniGen的數據、模型設計與訓練策略中深度了解多模態統一生成模型

shizhi02 ? 5464瀏覽 ? 0回復
統一多模態大模型！PUMA:多粒度策略笑傲生成、編輯、修復、著色、條件生成和理解!

angel ? 3428瀏覽 ? 0回復
Janus 統一多模態理解和生成

kede96 ? 2768瀏覽 ? 0回復
Emu3：開啟多模態人工智能新紀元 —— 視頻、圖像、文本三合一模型

穿越時空111 ? 2767瀏覽 ? 0回復
自回歸和Rectified Flow完美融合統一多模態理解和生成！DeepSeek&北大等開源JanusFlow

angel ? 2902瀏覽 ? 0回復
文檔截圖嵌入統一多模態檢索方法原理

大模型自然語言處理 ? 2330瀏覽 ? 0回復
15M數據實現顛覆性統一多模態大模型！華為諾亞提出ILLUME

angel ? 3194瀏覽 ? 0回復
多模態理解和生成：多模態理解與生成統一獎勵模型；將獎勵模型多模態情緒識別上

AI研究前瞻 ? 2166瀏覽 ? 0回復
浙大&上交等發布統一多模態視頻生成框架OmniCam

angel ? 1550瀏覽 ? 0回復
單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！

angel ? 2144瀏覽 ? 0回復
VARGPT：視覺自回歸多模態大語言模型中的統一理解與生成

AIRoobt ? 973瀏覽 ? 0回復
多模態與生成正邁向終極大一統！阿里最新3萬字長文梳理統一的多模態理解和生成模型

angel ? 2157瀏覽 ? 0回復
復旦：基于強化微調的統一多模態思維鏈獎勵模型

柏企閱文 ? 692瀏覽 ? 0回復
Emu3：僅需下一令牌預測

AIRoobt ? 750瀏覽 ? 0回復
BLIP3-o統一圖像生成與理解，多模態融合趨勢顯現

CourseAI ? 718瀏覽 ? 0回復
阿里推出 LingShu AI醫生：統一多模態醫學理解與推理的通用基礎模型

知識圖譜科技 ? 1072瀏覽 ? 0回復
圖表代碼生成，ChartIR；視頻與文本統一多模態模型

AI研究前瞻 ? 353瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

Seed1.5-VL技術報告解讀 2025-05-30 06:35:59發布
通向高分辨率VLM (11): VILA-HD 2025-05-08 06:39:32發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響

下一篇： YOLO11問世！重新定義AI的可能性！

社區精華內容

目錄

主站蜘蛛池模板：精品国产乱码久久久久久1区2区 | 欧美日韩精品一区二区三区四区 | 91久操网| 国产黄色精品在线观看 | 精品美女 | 在线中文字幕国产 | 每日更新av | 9191av| 日本三级视频 | 亚洲精品久久久久久久不卡四虎 | 久久午夜精品 | 午夜精品久久久久久久久久久久久 | 日韩中文字幕网 | 亚洲免费在线视频 | 插插宗合网 | 国产日韩一区 | 亚洲一区av在线 | 久久精品视频免费看 | 国产精品久久久久免费 | 1级毛片| 久久久精品影院 | 神马久久久久久久久久 | 91精品国产91久久久久久 | 久久久久国产一区二区三区 | 欧美视频在线免费 | 国产成人精品久久 | 在线免费观看毛片 | 人人干人人干人人 | 99re视频在线观看 | 亚洲午夜精品一区二区三区他趣 | 日韩喷潮 | 欧美午夜剧场 | 欧美国产精品一区二区 | 精品一二三区视频 | 欧美日韩在线一区 | 国产精品一区二区在线 | 国产精品美女久久久久aⅴ国产馆 | 色婷婷久久综合 | 国产日韩免费视频 | 国产精品免费一区二区三区 | 中文字幕高清 |