Emu3：僅需下一令牌預測原創(chuàng)

發(fā)布于 2025-5-19 09:19

瀏覽

0收藏

摘要

盡管下一令牌預測被視為通往通用人工智能的一條有前途的道路，但它在多模態(tài)任務中一直難以取得優(yōu)異成績，目前多模態(tài)任務仍由擴散模型（如 Stable Diffusion）和組合方法（如 CLIP 與大語言模型相結合）主導。在本文中，我們介紹 Emu3，這是一套全新的最先進的多模態(tài)模型，僅通過下一令牌預測進行訓練。通過將圖像、文本和視頻標記化到離散空間中，我們在多模態(tài)序列的混合數(shù)據(jù)上從頭開始訓練一個單一的 Transformer。Emu3 在生成和感知任務上優(yōu)于多個成熟的特定任務模型，超越了 SDXL 和 LLaVA-1.6 等旗艦模型，同時無需使用擴散或組合架構。Emu3 還能夠通過預測視頻序列中的下一令牌來生成高保真度的視頻。我們將焦點匯聚于令牌，簡化了復雜的多模態(tài)模型設計，在訓練和推理過程中釋放了巨大的擴展?jié)摿ΑＮ覀兊慕Y果表明，下一令牌預測是構建超越語言的通用多模態(tài)智能的一條有前途的途徑。我們開源了關鍵技術和模型，以支持這一方向的進一步研究。

Emu3：僅需下一令牌預測-AI.x社區(qū)

圖1：Emu3通過單個Transformer在視頻、圖像和文本令牌的混合數(shù)據(jù)上進行訓練，以預測下一個令牌。與成熟的特定任務模型相比，Emu3在生成和感知任務中均達到了最先進的性能。

- 該圖展示了Emu3的訓練機制，即利用單個Transformer處理由視頻、圖像和文本構成的混合令牌數(shù)據(jù)來預測下一個令牌。同時表明在生成任務（如根據(jù)文本生成圖像、視頻等）和感知任務（如圖像分類、視覺 - 語言理解等）方面，Emu3與已有的特定任務模型相比，性能處于頂尖水平。

Emu3：僅需下一令牌預測-AI.x社區(qū)

圖2：與開源旗艦模型在視覺生成和感知方面的比較- 此圖對Emu3與開源的旗艦模型（如SDXL、LLaVA - 1.6 - 7B、OpenSora - 1.2）在視覺生成（如圖像生成、視頻生成）和視覺 - 語言感知（如理解圖像與文本之間的關系、回答基于圖像和文本的問題）這兩個領域的性能進行對比。Emu3僅依靠下一令牌預測的方式，在這兩方面均展現(xiàn)出優(yōu)勢，且完全不依賴擴散模型和CLIP技術。在圖像生成任務中，通過基于英文提示的人工評估分數(shù)來對比；在視覺 - 語言理解任務中，依據(jù)十二個基準測試（SEEDBench - Img、OCRBench等）的平均分數(shù)進行比較；在視頻生成任務中，則以VBench基準測試的結果作為對比依據(jù)。

1、引言

下一令牌預測徹底改變了語言模型領域，推動了 ChatGPT 等突破的出現(xiàn)，并引發(fā)了關于通用人工智能（AGI）早期跡象的討論。然而，這一范式在多模態(tài)模型中的適用性仍不明確，其在不同任務中實現(xiàn)有競爭力的性能的有效性證據(jù)有限。

在多模態(tài)模型領域，視覺生成一直由復雜的擴散模型（如 Stable Diffusion）主導，而視覺 - 語言感知則由 CLIP 與大語言模型（如 LLaVA）等組合方法引領。盡管早期有統(tǒng)一生成和感知的嘗試，如 Emu 和 Chameleon，但這些努力要么依賴于將大語言模型與擴散模型連接起來，要么在性能上無法與專為生成和感知設計的特定任務方法相媲美。

在這項工作中，我們提出 Emu3，這是一套全新的、完全基于下一令牌預測的最先進多模態(tài)模型，完全摒棄了對擴散或組合方法的需求。我們將圖像、文本和視頻標記化到離散空間中，并在多模態(tài)序列的混合數(shù)據(jù)上從頭開始聯(lián)合訓練一個單一的 Transformer。

Emu3 在生成和感知任務上與成熟的特定任務模型相比，達到了最先進的性能。在人工評估和 MSCOCO-30K、GenEval、T2I-CompBench 和 DPG-Bench 等公開的文本到圖像基準測試中，Emu3 的表現(xiàn)均優(yōu)于旗艦模型 Stable Diffusion（即 SDXL）。在視覺 - 語言理解方面，Emu3 在一系列公開的視覺 - 語言基準測試中，包括 SEED-Bench、RealWorldQA、OCRBench 等，與流行的視覺 - 語言模型 LLaVA-1.6 展開競爭。

Emu3 能夠生成視頻。與使用視頻擴散模型從噪聲生成視頻的 Sora 不同，Emu3 通過預測視頻序列中的下一令牌，以因果方式生成視頻。該模型可以模擬物理世界中環(huán)境、人物和動物的某些方面。在給定視頻上下文的情況下，Emu3 可以擴展視頻并預測接下來會發(fā)生什么。根據(jù)用戶的提示，該模型可以生成符合文本描述的高保真視頻。Emu3 在 VBench 基準測試的文本到視頻生成任務中脫穎而出，與其他視頻擴散模型展開競爭。

我們開源關鍵技術和模型，以促進這一方向的未來研究。值得注意的是，我們提供了一個強大的視覺標記器，能夠將視頻和圖像轉換為離散令牌，這在以前是無法公開獲取的。我們還展示了下一令牌預測框架的多功能性，表明直接偏好優(yōu)化（DPO）可以無縫應用于自回歸視覺生成，使模型與人類偏好保持一致。我們的結果有力地證明，下一令牌預測可以作為多模態(tài)模型的強大范式，超越語言模型，在多模態(tài)任務中實現(xiàn)最先進的性能。通過簡化復雜的模型設計并僅專注于令牌，它在訓練和推理過程中釋放了巨大的擴展?jié)摿ΑＮ覀兿嘈牛乱涣钆祁A測為構建通用多模態(tài)智能提供了一條有前途的途徑。

2、方法

2.1 數(shù)據(jù)

Emu3 在語言、圖像和視頻數(shù)據(jù)的混合數(shù)據(jù)上從頭開始訓練。

?語言數(shù)據(jù)：我們使用與 Aquila 相同的語言數(shù)據(jù)，這是一個高質量的語料庫，包含中文和英文數(shù)據(jù)。

?圖像數(shù)據(jù)：我們整理了一個大規(guī)模的圖像 - 文本數(shù)據(jù)集，包括開源網(wǎng)絡數(shù)據(jù)、人工智能生成的數(shù)據(jù)和高質量的內部數(shù)據(jù)。過濾過程包括幾個關鍵步驟：1）應用分辨率過濾器，丟棄分辨率低于 512×512 像素的樣本。2）使用 LAION-AI 美學預測器評估每個圖像的美學質量，排除得分低于 5.5 的圖像，以確保整體美學質量。3）對于未通過美學過濾器的圖像，我們采用文本檢測和顏色過濾，保留非單色圖像和文本最少的圖像，提高對開放世界圖像的過濾召回率。4）此外，我們?yōu)閳D像理解準備補充數(shù)據(jù)。通過遵循 DenseFusion 中的數(shù)據(jù)處理流程，我們從各種開源網(wǎng)絡數(shù)據(jù)中提取了數(shù)百萬個具有代表性的圖像，涵蓋廣泛的類別，包括圖表、表格、富含文本的內容等。

為了注釋過濾后的數(shù)據(jù)集，我們開發(fā)了一個基于 Emu2 的圖像字幕模型，以構建密集的合成字幕。我們利用帶有詳細提示的 GPT-4V 生成約 100 萬個圖像 - 字幕對。然后，使用這個注釋數(shù)據(jù)集對 Emu2-17B 模型進行微調，作為我們的圖像字幕生成器。此外，我們使用開源的 vLLM 庫來加速標記過程。

?視頻數(shù)據(jù)：我們收集了涵蓋廣泛類別的視頻，如風景、動物、植物、游戲和動作。這些視頻通過一個復雜的流程進行預處理，包括以下四個階段：1）我們使用 PySceneDectect 將視頻分割成場景，分別使用 ContentDetector 和 ThresholdDetector 來識別內容變化和淡入 / 淡出事件。2）使用 PaddleOCR 進行文本檢測，并刪除文本覆蓋過多的片段。為了降低計算成本，我們以 2FPS 對視頻幀進行采樣，并將較短的邊緣調整為 256 像素。3）我們進一步計算光流，以消除運動極小或極大的片段。與上一步一樣，為了提高效率，我們對視頻幀進行采樣和調整大小。光流得分定義為所有像素的平均光流幅度與較短邊緣的比率。我們排除光流得分超出可接受范圍的片段。4）最后，我們使用 LAION-AI 美學預測器評估每個片段的美學質量。我們對每個片段采樣三幀并獲得三個分數(shù)，丟棄最低分數(shù)小于 5 的片段。

我們使用基于圖像字幕生成器訓練的視頻字幕生成器為過濾后的視頻片段添加字幕。訓練數(shù)據(jù)最初由 GPT-4V 標記。對于每個視頻片段，我們采樣八幀，并為 GPT-4V 創(chuàng)建一個詳細的提示，以描述這些幀內的內容和運動。部分標記數(shù)據(jù)經(jīng)過人工修訂。然后，我們在這些標記數(shù)據(jù)上對圖像字幕生成器進行微調，以開發(fā)視頻字幕生成器。為了大規(guī)模部署，我們使用 vLLM 加速字幕生成。對于短于 20 秒的片段，使用 12 個均勻采樣的幀進行字幕生成，而較長的片段則被分割成 10 - 20 秒的子片段，每個子片段獨立進行字幕生成。

2.2 視覺標記器

我們基于 SBER-MoVQGAN 訓練視覺標記器，它可以將 4×512×512 的視頻片段或 512×512 的圖像從大小為 32768 的碼本中編碼為 4096 個離散令牌。我們的標記器在時間維度上實現(xiàn) 4 倍壓縮，在空間維度上實現(xiàn) 8×8 壓縮，適用于任何時間和空間分辨率。在 MoVQGAN 架構的基礎上，我們在編碼器和解碼器模塊中都融入了兩個帶有 3D 卷積核的時間殘差層，以增強視頻標記化能力。該標記器在 LAION-High-Resolution 圖像數(shù)據(jù)集和 InternVid 視頻數(shù)據(jù)集上使用 L2 損失、LPIPS 感知損失、GAN 損失和承諾損失的組合目標函數(shù)進行端到端訓練。

定性結果如圖 3 所示。我們在表 2 中報告了使用來自 Pexels 的 3172 個視頻的評估數(shù)據(jù)集計算的 LPIPS（由 AlexNet 特征計算）、PSNR 和 SSIM 分數(shù)。視頻在保持寬高比的情況下重建 5 秒。在評估期間，原始視頻和重建視頻根據(jù)較短的邊進行調整大小和裁剪，并以 12FPS 均勻采樣 8 幀。

Emu3：僅需下一令牌預測-AI.x社區(qū)

圖3：重建樣本- 該圖呈現(xiàn)了視覺標記器對數(shù)據(jù)處理后的重建效果。左圖展示了分辨率為540×960的原始視頻以及經(jīng)過處理后的重建視頻，以每秒30幀的幀率選取8幀展示，用于觀察視頻在重建前后的細節(jié)差異。右圖展示了分辨率為512×512的原始圖像和重建圖像，可通過放大圖像查看細節(jié)，以此評估視覺標記器對圖像信息的保留和重建能力。

表1：Emu3視覺標記器配置 - 該表詳細列出了Emu3視覺標記器的各項配置參數(shù)。包括預訓練權重（采用SBER - MoVQGAN - 270M 5）、碼本大小（為32768）、潛在大小（是4）、壓縮率（4×8×8 ，表示在時間和空間維度上的壓縮比例）等信息，這些參數(shù)共同決定了視覺標記器對視頻和圖像進行編碼和解碼的方式及性能。

表2：視頻壓縮指標 - 此表展示了不同分辨率（128×128、256×256、512×512、720×720）下視頻壓縮后的相關指標數(shù)據(jù)。這些指標包括LPIPS（用于衡量圖像之間的感知差異）、PSNR（評估圖像質量的峰值信噪比）、SSIM（結構相似性指數(shù)，衡量圖像之間的結構相似度），通過這些指標可以量化不同分辨率下視頻壓縮后的質量變化和相似程度，幫助評估視頻壓縮效果。

Emu3：僅需下一令牌預測-AI.x社區(qū)

2.3 架構

Emu3 模型保留了 Llama-2 等成熟大語言模型的架構框架，主要修改是擴展嵌入層以適應離散視覺令牌。我們使用 RMSNorm 進行歸一化，使用 GQA 作為注意力機制，同時采用 SwiGLU 激活函數(shù)和旋轉位置嵌入（RoPE）。去除 qkv 和線性投影層中的偏差。此外，實施 0.1 的隨機失活率以提高訓練穩(wěn)定性。我們使用 QwenTokenizer 對多語言文本進行標記化。詳細配置見表 3。

表3：模型配置- 該表給出了Emu3模型的詳細架構配置信息。涵蓋參數(shù)數(shù)量（80億）、層數(shù)（32層）、隱藏層大小（4096）、中間層大小（14336）、頭數(shù)（32個）、KV頭數(shù)（8個）、詞匯表大小（184622）、RoPE基準（1000000 ，與旋轉位置嵌入相關的參數(shù)）、上下文長度（131072）等參數(shù)，這些配置參數(shù)決定了Emu3模型的結構和性能特點，影響其在多模態(tài)任務中的表現(xiàn)。

Emu3：僅需下一令牌預測-AI.x社區(qū)

2.4 預訓練

?數(shù)據(jù)準備：在預訓練期間，我們首先定義多模態(tài)數(shù)據(jù)格式。與依賴外部文本編碼器的擴散模型不同，Emu3 原生集成了用于圖像 / 視頻生成的文本條件信息。我們在保持寬高比的情況下將圖像 / 視頻重新縮放到面積接近 512×512 的大小，然后使用視覺標記器生成視覺令牌。然后，我們引入五個特殊令牌來合并文本和視覺數(shù)據(jù)，為訓練過程創(chuàng)建類似文檔的輸入。生成的訓練數(shù)據(jù)結構如下：[BOS]{caption text}[SOV]{meta text}[SOT]{vision tokens}[EOV][EOS]。

其中，[BOS] 和 [EOS] 是文本標記器中的原始特殊令牌，[SOV] 標記視覺輸入的開始，[SOT] 標記視覺令牌的開始，[EOV] 表示視覺輸入的結束。此外，[EOL] 和 [EOF] 被插入到視覺令牌中，分別表示換行符和幀分隔符。“meta text” 包含圖像的分辨率信息，對于視頻，它包括分辨率、幀率和持續(xù)時間，均以純文本格式呈現(xiàn)。我們還將數(shù)據(jù)集中一部分的 “caption text” 字段移動到 [EOV] 令牌之后，從而構建針對視覺理解任務的數(shù)據(jù)。

?訓練目標：由于 Emu3 中的視覺信號完全轉換為離散令牌，我們只需要使用標準交叉熵損失進行下一令牌預測任務的訓練。為了防止視覺令牌主導學習過程，我們對與視覺令牌相關的損失應用 0.5 的權重。

?訓練細節(jié)：Emu3 模型在預訓練期間利用廣泛的上下文長度來處理視頻數(shù)據(jù)。為了便于訓練，我們采用張量并行（TP）、上下文并行（CP）和數(shù)據(jù)并行（DP）的組合。我們同時將文本 - 圖像數(shù)據(jù)打包到最大上下文長度，以充分利用計算資源，同時確保在打包過程中完整的圖像不會被分割。預訓練過程分兩個階段進行。在第一階段，不使用視頻數(shù)據(jù)，從文本和圖像數(shù)據(jù)開始從頭訓練，上下文長度為 5120。在第二階段，引入視頻數(shù)據(jù)，采用 131072 的上下文長度。兩個階段都使用5?—10^{-5}的學習率，并采用余弦退火將學習率降至零。

2.5 后訓練

2.5.1 視覺生成

?質量微調：在預訓練階段之后，我們對視覺生成任務進行后訓練，以提高生成輸出的質量。我們使用高質量數(shù)據(jù)進行質量微調（QFT）。模型繼續(xù)使用標準交叉熵損失進行下一令牌預測任務的訓練；然而，監(jiān)督僅應用于視覺令牌。對于 QFT 中的圖像數(shù)據(jù)，我們選擇多樣的高質量數(shù)據(jù)源，并根據(jù) HPSv2.1、MPS 和 LAION 美學分數(shù)這三個流行偏好分數(shù)的平均值進行過濾。在 QFT 期間，我們將訓練數(shù)據(jù)分辨率從 512 像素提高到 720 像素，以提高生成質量。對于視頻數(shù)據(jù)，我們從高質量源中采樣，并應用嚴格的分辨率和光流過濾器以確保質量。此外，在訓練結束時，我們使用退火策略將學習率線性衰減至零。

?直接偏好優(yōu)化：直接偏好優(yōu)化（DPO）是一種使模型更好地與人類偏好保持一致的有效方法。我們將 DPO 技術應用于自回歸多模態(tài)生成任務，利用人類偏好數(shù)據(jù)來提高模型性能。我們將數(shù)據(jù)集構建分為三個步驟：1）使用質量微調后的模型對每個用戶收集的提示(p)進行 8 - 10 次推理，創(chuàng)建初始數(shù)據(jù)池(x)。2）每個提示由三個評估人員進行評估，重點關注視覺吸引力和提示匹配度。3）根據(jù)分數(shù)，選擇得分最高的樣本，拒絕得分最低的樣本，與提示一起形成三元組(p_{i}, x_{i}^{chosen}, rejected)，用于進一步訓練。具體來說，數(shù)據(jù)構建過程中的令牌被存儲起來，以便在未來的訓練階段直接使用。這種策略消除了重新標記化導致的重建差異。Emu3-DPO 通過最小化 DPO 損失和下一令牌預測交叉熵損失來對 QFT 模型進行微調。

2.5.2 視覺 - 語言理解

預訓練模型在視覺 - 語言理解方面要經(jīng)過兩階段的后訓練過程：1）圖像到文本訓練，2）指令調整。在第一階段，我們的方法將圖像理解數(shù)據(jù)與純語言數(shù)據(jù)相結合，同時忽略與視覺令牌相關的損失，僅進行文本預測。每個圖像在保持原始寬高比的情況下調整為約 512×512 的分辨率。在第二階段，我們從 [44] 中采樣一部分問答對，以增強視覺指令跟隨能力。分辨率低于 512×512 或高于 1024×1024 的圖像將分別調整為較低或較高的分辨率限制，同時相應地保持寬高比，而其他圖像則保持其原始分辨率。

3、主要結果

3.1 圖像生成

3.1.1 自動指標評估

我們通過在流行的文本到圖像基準測試（MSCOCO-30K、GenEval、T2I-CompBench 和 DPG-Bench）上進行自動指標評估，展示 Emu3 的性能。表 4 展示了 Emu3 與擴散方法、自回歸擴散方法和基于自回歸的方法在這四個基準測試中的比較結果。我們的方法在圖像 - 文本對齊評估中優(yōu)于自回歸擴散方法，并且與最先進的基于擴散的模型相當，盡管我們沒有使用任何預訓練的語言模型。

表4：與最先進模型在文本到圖像基準測試中的比較

- 該表在MSCOCO - 30K、GenEval、T2I - CompBench和DPG - Bench這四個用于評估文本到圖像生成能力的基準測試中，對Emu3與當前最先進的模型進行性能對比。帶?的結果是經(jīng)過重寫后的結果，通過對比不同模型在這些基準測試中的各項指標（如圖像 - 文本對齊度、生成圖像質量等），可以清晰地看出Emu3在文本到圖像生成任務中的優(yōu)勢和競爭力。

Emu3：僅需下一令牌預測-AI.x社區(qū)

在使用重寫器擴展短提示后，我們報告 GenEval 和 T2I-CompBench 的結果。由于 Emu3 在訓練過程中使用了大量的合成標簽，在密集字幕方面比短提示表現(xiàn)更優(yōu)。然而，GenEval 和 T2I-CompBench 中的評估提示過于簡短，無法準確反映模型的真實性能。遵循 DALL-E 3，我們也報告使用 GPT-4V 作為重寫器的評估結果。GenEval 總體得分結果表明，Emu3 顯著優(yōu)于多模態(tài)自回歸模型 Chameleon，以及最新的自回歸擴散方法 Show-O 和 Transfusion。此外，Emu3 超過了 SDXL，并與包括 DALL-E 3 在內的最先進的擴散模型性能相匹配。附錄 B.1 中提供了所有維度的詳細比較，包括原始提示的結果。

為了進一步評估最先進的文本到圖像方法，特別是擴散模型，我們使用 T2I-CompBench 評估生成圖像與文本條件之間的對齊情況。Emu3 與基于擴散的最先進模型相比，表現(xiàn)出有競爭力的性能。此外，我們在 DPG-Bench 上比較我們的模型與最先進的模型，該基準測試具有更長的提示，包含更詳細的評估信息。我們的 Emu3-DPO 總體得分達到 81.6，超過了 SDXL 和 PixArt-alpha，與 DALL-E 3 相當，進一步證明了該模型遵循長提示的能力。在比較 Emu3 和 Emu3-DPO 時，我們觀察到應用 DPO 后評估結果略有下降，這可能歸因于我們的 DPO 數(shù)據(jù)集中強調整體美學質量的偏好，這與自動評估模型的領域不同，使得僅通過自動評估得出的結論變得復雜。因此，我們在 3.1.2 節(jié)中引入了人工評估。

3.1.2 人工評估

我們進行了一項人工評估，比較不同模型的文本到圖像生成能力。收集了一組 100 個多樣的用戶提示，每個提示由三個獨立的評估人員進行評估。評估主要集中在兩個方面：視覺質量和提示跟隨度，綜合得分反映整體性能。如圖 5 所示，我們展示了當前封閉和開放生成式圖像模型的人工偏好比較。結果表明，Emu3 在總體得分上超過了 SDXL，與 DALL-E 3 和 MJ-v5.2 相當。此外，圖 6 展示了通過 DPO 微調的對齊效果，有效提高了視覺質量和提示跟隨度。

Emu3：僅需下一令牌預測-AI.x社區(qū) 圖片

圖5：封閉和開放生成式圖像模型在中英文提示下的人工評估總體得分比較

- 該圖比較了不同類型（封閉和開放）的生成式圖像模型在中文和英文提示下的表現(xiàn)。通過收集大量用戶給出的中英文提示，由人工從視覺質量（如圖像的清晰度、色彩、構圖等）和提示跟隨度（生成圖像與提示內容的匹配程度）等方面進行評估打分，最終得到每個模型的總體得分，從而對比不同模型在處理中英文提示時生成圖像的綜合能力。

Emu3：僅需下一令牌預測-AI.x社區(qū)

圖6：DPO對視覺質量和提示對齊的提升 - 此圖主要展示直接偏好優(yōu)化（DPO）技術應用于Emu3模型后產(chǎn)生的效果。重點體現(xiàn)DPO在提升生成圖像的視覺質量（如使圖像更清晰、更具美感）以及增強提示對齊（生成圖像更符合給定的文本提示內容）方面的作用，突出DPO對模型性能優(yōu)化的具體表現(xiàn)。

3.1.3 定性結果

圖 4 展示了 Emu3 生成的 25 張圖像，以展示其能力。Emu3 支持靈活的分辨率和寬高比，并且能夠處理各種風格。

Emu3：僅需下一令牌預測-AI.x社區(qū)

圖4：Emu3文本到圖像生成的定性結果- 此圖展示Emu3將文本轉換為圖像的生成效果，從定性的角度（如生成圖像的風格多樣性、對文本描述的還原程度、圖像的美觀度等方面）呈現(xiàn)Emu3在文本到圖像生成任務上的成果，幫助直觀感受Emu3在該任務上的表現(xiàn)。

3.2 視頻生成

與訓練階段一致，Emu3 原生支持以 24FPS 生成 5 秒視頻，并可以通過自回歸方法無限擴展。圖 7 展示了視頻生成的定性示例，從開頭 3 秒中提取了 6 幀進行展示。

我們對 Emu3 與 13 個性能最佳的開源和專有文本到視頻模型進行了定量比較。使用的基準測試是 VBench，這是一個用于評估視頻生成性能的綜合工具包，它在 16 個維度上評估每個模型的質量和語義能力。除了 Emu3 是自回歸模型外，所有其他公開可比的方法都是擴散模型。盡管如此，如表 5 所示，Emu3 在總體得分上與其他最先進的模型相比，表現(xiàn)出極具競爭力的結果。具體來說，雖然它略遜于 Kling 和 Gen-3 等最先進的專有模型，但它優(yōu)于大多數(shù)開源文本到視頻模型。這些結果突出了 Emu3很強的視頻生成能力。

Emu3：僅需下一令牌預測-AI.x社區(qū)

圖7：Emu3文本到視頻生成的定性結果- 該圖呈現(xiàn)Emu3在文本到視頻生成任務中的成果，從定性方面（如生成視頻的內容連貫性、與文本提示的契合度、視頻的視覺效果等）展示Emu3根據(jù)文本生成視頻的能力。通過從生成的視頻中選取開頭3秒并提取6幀進行展示，讓觀察者直觀感受Emu3生成視頻的質量和特點。

表5：與最先進文本到視頻模型在VBench基準測試中的比較 - 此表在VBench基準測試環(huán)境下，對Emu3與其他最先進的文本到視頻模型進行比較。從VBench的16個評估維度中選取11個維度（如運動平滑度、動態(tài)程度、美學質量等）以及最終綜合分數(shù)進行展示。除Emu3是自回歸（AR）模型外，其他可對比的公開方法均為擴散（Diff）模型，且指標數(shù)值越高代表對應模型在該維度的表現(xiàn)越好，以此全面評估Emu3在文本到視頻生成任務中與其他模型的差異和優(yōu)勢。

Emu3：僅需下一令牌預測-AI.x社區(qū)

3.3 未來預測

Emu3 可以通過預測未來幀來擴展視頻。在圖 8 中，我們展示了視頻擴展的定性示例，將 2 秒、24FPS 的視頻標記為離散視覺令牌作為上下文。Emu3 以相同的離散視覺令牌形式預測隨后 2 秒的內容，這些令牌可以被解標記以生成未來預測的視頻。這些示例表明，僅使用下一令牌預測就可以實現(xiàn)視頻的時間擴展，包括預測人類和動物的動作、與現(xiàn)實世界的交互以及三維動畫的變化。此外，通過以這種方式擴展視頻時長，我們的方法能夠迭代生成超過其上下文長度的視頻。我們已經(jīng)觀察到，以 2 秒的視頻數(shù)據(jù)作為上下文成功擴展未來視頻幀 8 秒是可行的。

Emu3：僅需下一令牌預測-AI.x社區(qū)

圖8：Emu3視頻擴展的定性結果- 此圖展示Emu3在視頻擴展任務中的表現(xiàn)。以2秒、24幀每秒的視頻作為初始上下文，Emu3預測并生成后續(xù)2秒的視頻內容。圖中每秒采樣3幀進行顯示，通過這些展示的幀，可直觀評估Emu3在視頻時間維度上的拓展能力，以及對視頻內容未來發(fā)展的預測準確性和合理性。

3.4 視覺 - 語言理解

為了評估在 2.5.2 節(jié)中微調后的 Emu3 的視覺 - 語言理解能力，我們在各種公開的視覺 - 語言基準測試中對模型進行了測試。主要結果詳見表 6，比較了兩類方法：1）基于編碼器的方法，利用預訓練的 CLIP 視覺編碼器；2）無編碼器的方法，無需預訓練編碼器。Emu3 作為一種純粹的無編碼器方法脫穎而出，在多個基準測試中顯著超越了其同類方法。這一成就的取得沒有依賴專門的預訓練大語言模型和 CLIP，凸顯了 Emu3 在多模態(tài)理解方面的內在能力和巨大潛力。

表6：在視覺 - 語言基準測試中的比較- 該表收集了多個視覺 - 語言基準測試（SEEDB即SEEDBench - Img、OCRB即OCRBench等）的評估數(shù)據(jù)，用于對比Emu3與基于編碼器的方法（這類方法依賴預訓練的CLIP視覺編碼器）和無編碼器的方法在這些測試中的表現(xiàn)。帶的表示在訓練過程中觀察到了相關訓練數(shù)據(jù)集的圖像，通過對比不同模型在各個基準測試中的分數(shù)，評估Emu3在視覺 - 語言理解任務方面的能力和水平。

Emu3：僅需下一令牌預測-AI.x社區(qū)

4、相關工作

視覺 - 語言理解

CLIP 通過在大規(guī)模圖像 - 文本對上進行對比學習，學習可遷移的視覺表示，在圖像分類任務中實現(xiàn)了令人矚目的零樣本結果。Flamingo 通過將預訓練的語言模型和類似于 CLIP 的視覺編碼器連接起來，首次展示了有前景的少樣本多模態(tài)理解能力。隨著大語言模型的日益普及和發(fā)展，將預訓練的視覺編碼器與大語言模型融合，已成為訓練廣泛的視覺 - 語言模型（VLMs）的常用方法。BLIP 系列、MiniGPT4 和 LLaVA 通過將視覺編碼器與大語言模型連接，并在圖像 - 文本對和視覺指令調整數(shù)據(jù)上進行訓練，展現(xiàn)出了令人鼓舞的結果。通過精心策劃的數(shù)據(jù)集和改進的訓練策略，LLaVA 系列及其他優(yōu)秀作品在性能上有了進一步提升。雖然像 Fuyu 和 EVE 等模型引入了無編碼器的視覺 - 語言架構，將圖像補丁輸入到大語言模型中，但它們在與最先進的視覺 - 語言模型競爭時仍面臨挑戰(zhàn)。Emu3 首次證明，僅在下一代令牌預測上訓練的僅解碼器模型，能夠取得與基于編碼器的視覺 - 語言模型相當甚至更優(yōu)的性能。這為這種架構的進一步改進開辟了道路。

視覺生成

最近，視覺生成領域的進展在很大程度上由擴散模型主導。這些模型在通過擴散過程生成高分辨率圖像方面展示出了令人印象深刻的能力。Stable Diffusion 系列的開源發(fā)布，推動了這一方向的廣泛研究和發(fā)展。另一條研究路線是訓練自回歸模型，通過預測序列中的下一個令牌來生成圖像，如 DALL-E、CogView 和 Parti。VideoGPT 和 VideoPoet 也在視頻領域采用自回歸方法。然而，它們要么在性能上無法與擴散模型相媲美，要么依賴級聯(lián) / 組合方法，例如 VideoPoet 使用兩階段的生成和細化框架以及額外的文本編碼器。在這項工作中，Emu3 通過單個 Transformer 解碼器展示了最先進的圖像和視頻生成能力。值得注意的是，我們開源了相關技術，以支持這一方向的進一步研究和發(fā)展。

統(tǒng)一理解與生成

早期有一些統(tǒng)一視覺理解和生成的嘗試，在圖像和文本數(shù)據(jù)上探索各種生成目標。Emu 和 Emu2 引入了統(tǒng)一的自回歸目標：通過回歸視覺嵌入或分類文本令牌來預測下一個多模態(tài)元素。CM3Leon 和 Chameleon 在混合的圖像和文本數(shù)據(jù)上訓練基于令牌的自回歸模型。最近的方法如 TransFusion 和 Show-o 試圖結合擴散和自回歸方法來提升性能。然而，這些模型在視覺生成和理解方面，仍落后于像 SDXL 和 LLaVA-1.6 這樣的特定任務架構。Emu3 首次證明，跨圖像、視頻和文本的下一個令牌預測可以超越這些成熟的模型，而無需依賴組合方法。

5、結論

在本文中，我們介紹了 Emu3，這是一系列新的多模態(tài)模型，通過下一個令牌預測在多模態(tài)生成和感知方面表現(xiàn)卓越。通過將圖像、文本和視頻標記為離散空間，并從頭開始訓練單個 Transformer，Emu3 不僅消除了對擴散和組合方法的依賴，還超越了 SDXL 和 LLaVA-1.6 等已有的特定任務模型的性能。我們的結果有力地證明，下一個令牌預測可以作為多模態(tài)模型的強大范式，超越語言模型，在包括具有挑戰(zhàn)性的視頻生成在內的各種任務中提供最先進的性能。我們相信，下一個令牌預測在追求通用多模態(tài)智能的過程中不僅可行，而且具有優(yōu)勢，使我們更接近通用人工智能的實現(xiàn)。

本文轉載自??AIRoobt?? ，作者：Emu3 Team

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

Emu3

通用人工智能

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Emu3：僅需下一令牌預測原創(chuàng)

摘要

1、引言