編輯 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
上周四,12月26日那個晚上非常不平凡,一件大事注定要被AI界寫進里程碑。
一夜之間,全球開源界最強模型不再是Llama了,而是中國開源界的新星DeepSeek最新研發的前言模型V3,甚至可以比肩世界頂尖的閉源模型。
根據DeeSeek披露的基準測試分數,簡單來講,八個字:開源最強,閉源比肩。
DeepSeek-V3在眾多其他閉源模型中脫穎而出,表現優于Meta的旗艦產品——擁有4050億個參數的Llama 3.1模型。與DeepSeek的前代產品V2相比,V3的速度提高了三倍。
更為矚目的是,技術論文中寫道:“綜合評估表明,DeepSeek-V3已成為當前可用的最強開源模型,其性能可與GPT-4o和Claude-3.5-Sonnet等領先的閉源模型相媲美。”
但更為讓人吃驚的點就在于——2個月、2000張H800卡,就搞出了GPT-4o級別的模型。
圖片
V3模型的三個創新
DeepSeek這實力真的有點恐怖!
那么這家由知名私募巨頭幻方量化旗下的人工智能公司,究竟是如何做到的?
本身的模型架構訓練也不是什么秘密:V3模型還是走的MoE路線,總計擁有6710億個參數,每個token可激活370億個參數。這么大模型需要多少數據量來訓練呢?答案是:14.8萬億個token!
注意:HuggingFace上的DeepSeek-V3模型總大小為685B,包括671B的主模型權重和14B的多標記預測(MTP)模塊權重。
DeepSeek已在GitHub上發布了該模型,并發表了一篇詳細的技術論文,概述了其能力。
論文鏈接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
論文中披露的創新點很多,這里分享三個印象最為深刻的點:MLA技術+小專家MoE架構;負載均衡策略、多標記預測訓練目標的前后訓練的樣板打法;P/D分離+雙流推理低設備空閑策略。
一,模型架構方面,V3采用MLA技術(多頭潛在注意力)+MoE架構。大模型架構需要遵循系統算法系統設計原則,DeepSeek采用的MLA技術,可以理解為類LoRA對kv進行降維壓縮,升維操作轉移到Q和O上,避免反復解壓縮,這樣可以降低kv cache/token開銷。MLA其實在V2就已經采用了,只是沒有得到大家的廣泛關注,因為復雜度相對偏高。
而MoE這塊,這塊大家都比較熟知,主要是為了為了降低flops/param開銷,不過V3所采用的策略也可圈可點。不同于Mixtral中大專家的設計(將稠密模型中的MLP結構復制8份),DeepSeek-V3采用大量“小專家”的設計,能夠顯著提升模型的稀疏程度(總參數量除以激活參數量)。
相比V2的236B總參數(21B激活參數),V3更加激進地引入256個專家,總參數量達到驚人的671B,而激活參數量僅僅增加到37B。
根據技術報告里的數據,得益于更加稀疏的MoE設計,以及系統上的一系列優化,訓練V3每trillion數據的GPU小時數僅僅為180K(而V2對應的GPU小時數為172.8K),可謂是將V2技術報告標題中的Economical(性價比)貫徹到底。
此外,MoE架構方面,V3還開創了一種新的無輔助損失的負載平衡策略和多標記預測訓練目標。V3中使用先前發布的auxiliary-loss-free策略來緩解專家之間的負載不均衡。一位業界人士稱贊道:學術探索的技術能夠如此迅速地上線到自家大模型,可見DeepSeek對于創新的重視程度。
另外,V3引入了multi-token prediction(MTP),不僅可以在訓練時提供更多監督信息,還可以在推理時結合投機采樣速模型解碼。從論文匯報的效果來看,MTP會是一個不錯的訓練技巧。
二,訓練效率優化方面,預訓練方面的FP8混合精度訓練模式,后訓練 R1模型的長鏈思考能力蒸餾到了標準LL中。
據業內人士介紹,實際大模型訓練中主流選擇是BF16。因為FP8伴隨著數值溢出的風險,而MoE的訓練又非常不穩定。現有FP8方案的訓練困難主要來自兩個方面,一個是粗粒度的per-tensorE4M3量化會因為個別異常值增加量化誤差,另一個則是反向過程中使用的E5M2格式會帶來較大的舍入誤差。
為了解決以上問題,DeepSeek-V3在訓練過程中統一使用E4M3格式,并通過細粒度的per-tile(1x128)和per-group(128x128)量化來降低誤差。這種設計更加接近micro-scaling格式,然而,當前硬件架構并不支持這種格式的運算,這給FP8矩陣乘法的實現帶來了挑戰(需要通過partial sum的方式來實現)。
FP8的好處,有一點體現在節省顯存上(尤其是激活值)。顯存的優化有助于設計更好的并行策略,例如可以減少甚至消除張量并行的使用。此外,V3使用BF16來保存優化器,狀態,以及對部分操作進行選擇性重計算(例如RMSNorm, MLA Up-Proj, SwiGLU)。
可以說V3給業界做了一個很好的示范:FP8模式是可行和有效的!
通過算法、框架和硬件的共同設計,V3克服了跨節點MoE訓練中的通信瓶頸,幾乎實現了完全的計算通信重疊。這顯著提高了我們的訓練效率并降低了訓練成本,使我們能夠在不增加額外開銷的情況下進一步擴大模型規模。
以僅2.664M H800 GPU小時的經濟成本,就完成了在14.8T標記上的預訓練,并且效果也異常得好,造就了目前最強大的開源基礎模型。預訓練后的后續訓練階段僅需要0.1M GPU小時。
此外,其訓練過程非常穩定。在整個訓練過程中并沒有遇到任何不可恢復的損失峰值或執行任何回滾。
后訓練上,V3也有了新的樣板打法:從類o1中的長鏈思考能力蒸餾道標準LLM中。通過V3的訓練流程,可以優雅地將R1的驗證和反思模式整合到DeepSeek-V3中,并顯著提高了其推理性能。同時,V3的輸出風格和長度也可以后臺控制。
三,推理優化:推理層面,除了業內熟知的P/D分離策略最大化系統吞吐,降低解碼時延之外,還填充all2all通信階段的設備空閑時間,V3采用NanoFlow中的雙流推理策略,將不同micro-batch中的計算和通信任務并發執行,從而提高設備資源利用率。
V3:是最便宜的開源模型之一
DeepSeek將V3的API定價將維持與DeepSeek V2相同,直至2025年2月8日。之后隨著性能更強的V3版本推出,輸入時費用為每百萬個tokes0.27美元,輸出時費用為每百萬個tokens1.10美元。
這也是DeepSeek算法和工程上的創新的結果,V3的生成吐字速度從20TPS大幅提高至60TPS,相比V2.5模型實現了3倍的提升,在處理多模態數據和長文本時表現突出。
這意味著它也成為了市面上最便宜的模型之一。
同時,DeepSeek在開源方面也做得很足,為了確保最佳性能和靈活性,還與開源社區和硬件供應商(英偉達、AMD、華為等)合作,提供了多種本地運行模型的方式。
V3對比o1:還是有差距
盡管這可能不是一場公平的較量,但該模型與OpenAI的o1相比表現如何呢?
o1在GPQA Diamond(博士級科學問題)基準測試中獲得了76%的分數,而DeepSeek則以59.1%的分數落后于o1。o1的完整版本在多個基準測試中擊敗了DeepSeek。然而,DeepSeek-V3在多個基準測試中確實優于備受追捧的Claude 3.5 Sonnet。
后來,大家還發現V3在對話聊天中存在“誤報我是GPT4o”的內容,純屬業內經常會出現的合成數據和蒸餾訓練的情況。
但盡管如此,足以說明DeepSeek在過去短短幾個月里在開源AI生態系統中就取得了重大進展。而DeepSeek并非個例。另一方面,阿里巴巴的Qwen 2.5在性能上與許多領先模型不相上下。Qwen2.5-Coder系列在代碼生成方面表現出色,在EvalPlus、LiveCodeBench和BigCodeBench等基準測試中,其功能與GPT-4o不相上下。
參考鏈接:
https://www.zhihu.com/question/7837132971/answer/65665281923
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf