解析DeepSeek Janus Pro論文:多模態AI領域的革命性突破 原創
編者按: 提到 DeepSeek,大家可能更熟悉 R1 模型 —— 這款以低成本、高性能和開源特性顛覆行業的語言模型,而今天這篇文章介紹的 DeepSeek Janus Pro,通過創新的架構設計,在性能上超越了同領域的眾多頂尖專用模型(Janus-Pro 7B 在圖像理解和圖像生成兩方面都超越了 LLaVA、Dalle 3 和 SD XL 這樣的主流選手)。
本文深入解析了 Janus Pro 的技術細節,從其核心設計原則到具體的圖像編碼器選擇,再到訓練過程的三個階段,全面展示了 Janus Pro 如何通過創新的架構設計和精細的訓練策略,實現了在多模態理解和生成任務上的卓越表現。
作者 | AI Papers Academy
編譯 | 岳揚
01 導言
業界仍在消化 DeepSeek 最近發布的震撼 AI 界的 DeepSeek-R1,但 R1 發布短短數日后,這家公司又祭出了另一款驚艷的開源多模態大模型 Janus Pro。這款對標國際頂尖多模態模型的新作,標志著 DeepSeek 在多模態領域的重大突破。
本文將深度解讀 Janus Pro 背后的研究論文《Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling》。要理解這篇論文,我們還需要首先解析 DeepSeek 的前一篇論文《JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation》中提出的 Janus 模型基礎架構。閱讀本文無需任何先驗知識,我們將系統闡釋兩代模型的演進邏輯:新論文建立在前一篇論文的基礎上,本文將對這兩篇論文進行全景式解析。
Janus-Pro 相關論文的標題和作者[1]
Janus-Pro 前一篇相關論文的標題和作者[2]
02 統一多模態理解與生成
兩篇論文都聚焦于"統一多模態理解與生成(unified multimodal understanding and generation)"這一核心命題。在深入剖析 Janus 模型的技術細節之前,我們有必要先厘清這一概念。
2.1 圖像理解任務解析
MLLM 實現的圖像理解案例
大語言模型(LLM)已在諸多領域展現出卓越能力。基于此,學界發展出多模態大語言模型(MLLM)技術路線,典型代表如 LLaVA。這類模型能同時處理文本指令與視覺輸入:如圖所示,當用戶輸入"我的貓在做什么?(what is my cat doing?)"并附上貓咪圖片時,模型可精準解析圖文信息,得出"貓咪試圖抓魚(the cat is trying to catch a fish)"的結論。
這種技術路線在圖像理解任務中成效顯著。以 Janus Pro 論文展示的案例為例:當用戶提供蛋糕圖片并詢問其相關背景信息時,Janus 不僅準確識別出蛋糕的主題元素是"貓和老鼠",更能調用其基座語言模型,延展輸出該經典 IP 的背景知識。這體現了 MLLM 系統的雙重優勢 —— 既具備跨模態理解能力,又可繼承 LLM 的通用知識儲備。
圖像理解任務案例展示[1]
2.2 圖像生成任務解析
圖像生成任務案例展示
當前主流的圖像生成模型(如 Stable Diffusion、DALL-E 3 等其他模型)主要基于擴散模型及其改進架構。如圖示案例所示,當輸入"可愛的貓咪(a cute cat)"文本指令時,系統能夠生成高質量視覺內容。
2.3 單個模型統一處理圖像理解和生成任務的優勢
現有技術路線中,圖像理解與生成通常分別由獨立的系統完成。將這些任務統一到一個模型中也有很大的好處:在實際應用場景中,單一模型可同步處理這兩類任務,避免多個模型切換帶來的計算資源浪費與系統復雜度提升。
Janus 模型通過對模型架構進行創新設計,將這兩種任務的處理整合于統一框架中。雖然將多任務的處理統一于單一模型并非全新概念,但在后文進行技術解析時將揭示其架構設計的精妙之處。
使用 Janus 統一處理理解和生成任務
03 Janus 與 Janus Pro 架構
Janus 和 Janus Pro 架構[1]
原始 Janus 模型與 Janus Pro 的架構設計相似,我們可以通過論文中的示意圖來理解。 Janus Pro 模型的核心是一個自回歸 Transformer 架構的大語言模型(LLM)。
3.1 Janus Pro 的核心設計原則
其他統一處理多模態理解和生成的模型通常采用單一圖像編碼器。但DeepSeek 的研究人員發現,理解與生成任務對圖像編碼的需求存在本質差異,單一編碼器會經常受到任務干擾的影響。因此 Janus 架構的核心設計原則是解耦多模態理解與生成的視覺編碼,通過為不同任務類型配置專用編碼器實現功能隔離。
3.2 Janus Pro 圖像編碼器
對于圖像理解任務,Janus 采用 SigLIP 進行圖像編碼。SigLIP 是 OpenAI CLIP 模型的改進版本,能夠從圖像中提取語義表征,使其非常適合圖像理解類任務。這些表征被線性映射到 LLM 的輸入嵌入空間。
對于圖像生成任務,Janus 使用了來自自回歸圖像生成模型 LlamaGen 的現有編碼器。這是一個 vector quantization (VQ) tokenizer,可將圖像轉換為 ID 序列(譯者注:類似于將一段語音信號轉換為文字(語音 → 離散的文字符號),此處是將連續圖像特征轉換為離散的符號(ID)。),每個 ID 都與預定義向量相關聯。然后通過一個訓練好的模塊,將這些預定義向量映射到 LLM 的輸入嵌入空間。
3.3 LLM 的處理過程與輸出
文本與圖像的嵌入向量被拼接形成 LLM 的輸入序列。對于圖像理解任務,直接調用 LLM 內置的文本預測頭輸出結果;對于圖像生成任務,則在 LLM 上添加一個圖像解碼頭,由其處理最終的隱藏狀態(Hidden State,包含輸入序列的語義信息)生成圖像。
3.4 Rectified Flow
逐步去除圖像噪聲示例[3]
圖像生成過程采用 Rectified Flow 方法。 本文不深入技術細節,但可通過對比擴散模型(Diffusion Models)直觀理解其優勢:從一張純噪聲圖像出發,通過多步驟迭代(如1000步)逐步去噪,最終生成清晰圖像(如貓咪圖片)。該技術通過路徑優化和噪聲抑制,顯著減少生成清晰圖像所需的步驟數量。
04 Janus Pro 訓練過程
Janus 訓練流程示意圖(源自原始 Janus 論文)[2]
上圖描述了 Janus 的訓練流程,該圖取自原始 Janus 論文。我們將在本文解釋 Janus Pro 的不同之處。Janus 和 Janus Pro 的訓練均分為三個階段。
4.1 第一階段 - Adaptation
本階段目的是讓新增組件與預訓練好的組件有效協作。 為此,大語言模型(LLM)和圖像編碼器的權重被凍結,僅訓練新引入的組件。這些組件包括將圖像編碼映射到 LLM 輸入嵌入空間的映射模塊,以及圖像生成頭(Image Generation Head)。該階段使用 ImageNet 數據進行訓練,使模型能根據圖像類別生成對應圖像。在 Janus Pro 模型中,本階段在 ImageNet 上的 training steps 有所增加。
4.2 第二階段 - Unified Pre-Training
此階段繼續訓練新組件,同時解凍 LLM 及其內置的文本預測頭,以增強對多模態嵌入序列的處理能力。 本階段訓練樣本類型包含多模態理解任務樣本、圖像生成任務樣本和純文本數據。Janus Pro 與原始 Janus 的主要區別在于移除了本階段的 ImageNet 數據。在 Janus Pro 訓練中直接使用 text-to-image 數據,而原始 Janus 模型則從 ImageNet 數據起步,逐步增加 text-to-image 數據的比例。
有一處值得強調,圖像編碼器的表征在訓練過程中與圖像生成的潛在輸出進行了對齊,以強化生成過程的語義一致性。
4.3 第三階段 - Supervised Fine-Tuning
第三階段使用指令調優數據進行監督式微調,數據包含對話樣本和高質量文生圖(text-to-image)樣本。 此階段開始訓練圖像理解編碼器,該流程在 Janus 和 Janus Pro 中保持一致。
相較于 Janus,Janus Pro 的其他主要改進包括:擴大訓練數據規模及模型規模。模型參數方面,使用的 LLM 從 15 億參數擴展至 70 億參數。
05 Janus Pro 的成果
5.1 多模態理解與生成能力的對比
Janus Pro 與頂尖多模態理解及圖像生成模型的比較[1]
上圖為 Janus Pro 與其他高性能模型的對比結果。
左圖展示了多模態理解任務的性能,橫軸為模型參數量級,縱軸為多個基準測試的平均準確率。值得注意的是,Janus-Pro-7B 的表現優于其他頂尖模型(如 LLaVA 系列)。更令人矚目的是,這一成績由統一模型實現(LLaVA 模型并非統一架構)。Janus Pro 還大大超越了以往的統一模型,并在參數量近乎 TokenFlow-XL 一半的情況下,準確率略微領先于該模型。
右圖展示了兩個基準測試的文生圖性能測評結果。Janus Pro 在生成質量上超越了 DALL-E 3、SD3-Medium 等頂級專用圖像生成模型,同時刷新了統一模型在圖像生成領域的最高紀錄(此圖未完整展示相關對比)。
5.2 Janus 與 Janus Pro 的生成質量對比
Janus 與 Janus Pro 的生成質量對比[1]
圖中直觀展現了 Janus Pro 相較于前代模型的生成質量提升。Janus Pro 生成的圖像在細節豐富度、語義一致性及視覺真實感上均有顯著優化。例如,復雜場景的構圖更精準,光影效果更自然,且文本描述中的隱含需求(如特定藝術風格)被更完整地實現。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
AI Papers Academy
At AI Papers Academy, we simplify AI research papers and concepts, making AI more accessible.
Our goal is to save you time by breaking down complex ideas into clear, digestible insights.
END
本期互動內容 ??
?如果您正在開發AI應用,DeepSeek Janus Pro 的哪些特性最吸引您考慮使用?
??文中鏈接??
[1]??https://github.com/deepseek-ai/Janus??
[2]??https://arxiv.org/abs/2411.07975??
[3]??https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/??
本文經原作者授權,由 Baihai IDP 編譯。 如需轉載譯文,請聯系獲取授權。
原文鏈接:
