星辰與代碼:DeepSeek的發展歷程
技術突破階段
2024 年,DeepSeek 強勢開啟生態擴張與技術爆發的新紀元,成為全球 AI 領域矚目的焦點。
年初 1 月,DeepSeek 便以 DeepSeek-MoE 震撼登場,創新性架構設計以僅 60% 的計算量損耗,成功超越 Llama 2-7B 性能,為后續技術突破奠定堅實基礎,在模型效率優化上邁出關鍵一步。
緊接著 2 月,DeepSeekMath 在 MATH 基準測試中表現驚艷,成績飆升至 51.7%,無限逼近 GPT-4 水平,數學推理能力實現質的飛躍,極大提升了模型在復雜數學問題求解上的可靠性與精準度。
3 月,DeepSeek 布局多模態領域,VL 系列研發正式啟動,為后續多模態融合發展埋下伏筆;5 月,經濟型 MoE 架構 DeepSeek-V2 重磅推出,其 API 定價僅為 GPT-4 Turbo 的 1%,以超高性價比打破行業價格壁壘,在保持模型高性能的同時,讓更多開發者和企業能夠輕松使用,迅速擴大了用戶群體和應用場景。
步入 6 月,DeepSeek-Coder-V2 橫空出世,在編程任務中與 GPT4-Turbo 全面匹敵,助力開發者高效完成代碼編寫、調試等工作,顯著提升編程效率與質量,成為開發者手中的得力工具。
圖片
9 月,DeepSeek 再度發力,成功整合 Coder 與 Chat 模型,升級版 DeepSeek V2.5 震撼上線,實現系統融合,進一步優化用戶交互體驗,讓模型在自然語言處理與代碼生成等多方面協同工作,為用戶提供更加全面、智能的服務。
在這一年里,DeepSeek 憑借一系列技術突破與創新,不僅拓寬了自身生態版圖,更推動了整個 AI 行業向低成本、高效率方向發展,為全球 AI 發展注入強勁動力,引領行業邁向新的發展階段。
多模態與全球化布局
2024 年第四季度至 2025 年第一季度,DeepSeek 以令人驚嘆的速度實現了跨越式發展,在 AI 領域掀起了陣陣波瀾。
2024 年 11 月,DeepSeek 推出首個推理專用模型 DeepSeek - R1 - Lite。這一創新性舉措,猶如在推理模型賽道上按下了加速鍵,為后續更強大模型的推出奠定了堅實基礎,也為專注于推理任務的開發者和研究人員提供了全新且高效的工具。
緊接著在 12 月,DeepSeek 乘勝追擊,發布旗艦模型 DeepSeek - V3。該模型基于 2048 塊 H800 GPU 集群,歷經 55 天的精心打磨完成訓練,訓練成本約 557.6 萬美元。其性能表現卓越,在眾多開源模型中脫穎而出,成功超越 Qwen2.5 - 72B 等開源模型,無論是在復雜的知識問答、代碼生成,還是多語言處理等任務中,都展現出了頂尖的實力,為開源模型領域樹立了新的標桿。
步入 2025 年 1 月,DeepSeek 的發展勢頭愈發強勁。DeepSeek - R1 開源模型成功實現與 OpenAI o1 正式版性能對齊,這一成果不僅證明了 DeepSeek 在技術研發上的深厚底蘊,更意味著開發者和用戶能夠在開源的生態下,享受到與行業頂尖水平相當的模型服務。同月,DeepSeek 智能助手強勢登頂美區 App Store 榜首,其簡潔高效的交互體驗、強大精準的回答能力,吸引了全球用戶的目光,成為了用戶在智能交互領域的首選應用之一。此外,DeepSeek 還推出了多模態系統 Janus - Pro,進一步拓展了 AI 應用的邊界,實現了文本、圖像、音頻等多種信息模態的融合處理,為用戶帶來了更加豐富多元的交互體驗。
圖片
到了 2025 年 2 月,在經過一段時間的市場驗證,收集大量用戶反饋并進行深度分析后,DeepSeek 對 API 定價策略做出調整。輸入 token 價格上調 100%,輸出 token 價格上調 300%。此次價格調整,是基于模型性能提升、服務優化以及市場供需等多方面因素綜合考量的結果,旨在為用戶持續提供高質量、穩定且不斷進化的 AI 服務,同時也確保 DeepSeek 在技術研發與市場運營之間找到良好的平衡,以推動自身在 AI 領域的持續創新與發展。
在這短短幾個月的時間里,DeepSeek 憑借一系列具有開創性的成果,展示了其在 AI 領域的強大實力與無限潛力,也為整個行業的發展注入了新的活力與動力。
DeepSeek模型發展
另外DeepSeek 系列在技術創新的道路上也是不斷發展,從最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath,再到DeepSeek V2、DeepSeek V3 以及最新的 DeepSeek R1
圖片
DeepSeek LLM
DeepSeek LLM 屬于密集的LLM模型,沿用了 LLaMA 的部分設計,如采用Pre-Norm結構、RMSNorm函數、SwiGLU激活函數和Rotary Embedding位置編碼。
關鍵技術 :
- 基于 Transformer 架構,采用分組查詢注意力(GQA)優化推理成本。
- 支持多步學習率調度器,提升訓練效率。
- 在預訓練和對齊(監督微調與 DPO)方面進行了創新。
- 縮放定律研究 :提出了新的最優模型/數據擴展-縮放分配策略。
DeepSeek MoE
DeepSeekMoE 是一種創新的MoE架構,專門設計用于實現終極專家專業化(expert specialization)。
關鍵技術 :
- 細粒度專家分割 (Fine-Grained Expert Segmentation):將專家細分為更細的粒度,以實現更高的專家專業化和更準確的知識獲取。
- 共享專家隔離 (Shared Expert Isolation):隔離一些共享專家以減輕路由專家之間的知識冗余。
- 負載均衡的輔助損失 (Auxiliary Loss for Load Balance):通過專家級平衡損失和設備級平衡損失,緩解模型訓練時可能出現負載不均衡問題。
DeepSeek Math
DeepSeekMath 是數學推理模型。
關鍵技術 :
- 數學預訓練:代碼訓練可提升數學推理能力。
- 監督微調:構建多格式數學指令微調數據集。
- 強化學習:提出 GRPO(Group Relative Policy Optimization)算法,通過組分數估計基線,減少訓練資源消耗。
DeepSeek V2
DeepSeek V2 是一款 經濟高效的大規模MoE模型,優化推理與訓練成本。
關鍵技術:
- DeepseekMoE :把 FFN 的結構改成 DeepseekMoE,是對傳統 MoE 結構的改進。
- 多頭潛在注意力(MLA):利用低秩鍵值聯合壓縮,來降低推理時的KV緩存開銷。
- 多Token預測(MTP):預測多步依賴,加速推理生成。
- 無輔助損失的負載均衡策略 :引入專家級均衡損失,設備級平衡損失,通信平衡損失,避免負載均衡帶來的輔助損失。
DeepSeek V3
整體思路:基于DeepSeek-V2,引入新的架構和訓練策略,進一步提升模型的性能,同時降低訓練成本。在模型架構、訓練方法、知識蒸餾與能力提升、模型性能與成本等方面進行創新。
關鍵技術:
- 無輔助損失的負載均衡策略 (ALFLB):通過引入偏置項動態調整專家負載。
- Token預測 訓練目標(MTP):在每個位置預測多個未來的 token,提高模型的數據效率。
- 高效的訓練框架:FP8 混合精度訓練框架,通過 DualPipe 算法和優化的通信內核,實現了近乎零開銷的跨節點通信。
- 知識蒸餾 :從 DeepSeek - R1 系列模型中蒸餾推理能力,將其融入 DeepSeek - V3,提升了模型的推理性能。
DeepSeek R1
定位:強化學習驅動的推理模型,顛覆傳統訓練流程。
關鍵技術:
- 零監督微調(Zero-SFT):完全依賴強化學習(RL),成本降至OpenAI O1的3%-5%18。
- 組相對策略優化(GRPO):替代PPO算法,無需價值模型,降低計算開銷89。
- 雙重獎勵系統:結合準確性獎勵與格式獎勵,提升結構化輸出能力8。
時代的需求
在當下,中美技術競爭態勢愈發激烈,美國對芯片出口實施嚴格限制,這使得國內在大模型技術領域突破國外壟斷的需求迫在眉睫。在此關鍵節點,DeepSeek團隊毅然選擇成立一家獨立的人工智能基礎技術研究公司。其目光聚焦于低成本、高性能模型的研發,這一舉措意義非凡。
一方面,它能夠充分滿足國內市場對契合中文語境的AI需求,為國內用戶帶來更貼合使用習慣、更懂中國文化和語言特色的AI服務;另一方面,它也為國產大模型產業樹立起標桿,激勵更多本土企業投身大模型研發,打破國外技術在該領域的長期主導局面,推動國產大模型產業朝著自主、創新、高效的方向大步邁進 。