DeepSeek 再爆大招,Janus-Pro 炸裂出場!
沒想到,DeepSeek 連續放出重磅消息,速度如此之快。
轉眼間,DeepSeek 便推出了全新的多模態模型,統一多模態理解與生成。
Janus-Pro 多模態大模型震撼登場,采用 Transformer 架構,并未沿襲 Diffusion 方法,又一次顛覆了行業的認知,緊追 OpenAI 的腳步。
擁有高性能電腦的同學們可以開始嘗試了,7B 版本已經能夠超越 Stable Diffusion 和 DALL-E 3,強大到讓人難以置信!
這個春節,真是激動人心。
見證國產 AI 的輝煌時刻。
Janus-Pro 多模態框架革新 AI 體驗
DeepSeek團隊再出新作,發布了創新性的多模態框架 Janus-Pro,這是一款能夠同時處理多模態理解與生成任務的集成模型。該模型基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 打造,支持高達 384 x 384 分辨率的圖像輸入,并采用獨特的 tokenizer 來實現圖像生成。其最大的創新在于將視覺編碼劃分為獨立通道,同時維持了單一的 Transformer 架構來進行處理。
這種設計革新不僅解決了傳統模型在視覺編碼器功能上的沖突,還大大提升了系統的靈活性。在實際應用層面,Janus-Pro 的表現超越了以往的統一模型,甚至在某些任務上能夠與專門的模型相媲美。在 GenEval 和 DPG-Bench 的基準測試中,它成功擊敗了 OpenAI 的 DALL-E 3 和 Stable Diffusion。
該項目已根據 MIT 許可證開源,開發者可通過 GitHub 獲取全套代碼。DeepSeek 團隊指出,Janus-Pro 的簡潔設計及其卓越性能,預示著它可能成為下一代統一多模態模型的重要選項。
GitHub 地址:https://github.com/deepseek-ai/Janus
Hugging Face 地址:https://huggingface.co/deepseek-ai/Janus-Pro-7B
論文地址:??https://arxiv.org/pdf/2501.17811??
本文轉載自公眾號玄姐聊AGI 作者:玄姐
