從DeepSeek-V3發布談大模型的技術突破與未來機遇

作者：張誠 2025-01-03 19:38:33

2024年12月26日，DeepSeek AI正式發布了其最新的大型語言模型DeepSeek-V3。這款開源模型采用了高達6710億參數的MoE架構，每秒能夠處理60個token，比V2快了3倍。一經發布，就在AI領域引起了軒然大波。值得注意的是，DeepSeek-V3不僅支持GPU訓練與推理，并且發布即支持昇騰平臺，在昇騰硬件和MindIE推理引擎上實現高效推理，為用戶提供了更多計算硬件的選擇。

在AI技術日新月異的今天，大型語言模型已成為推動AI發展的重要力量。2024年12月26日，DeepSeek AI正式發布了其最新的大型語言模型——DeepSeek-V3。這款開源模型采用了高達6710億參數的混合專家（MoE）架構，每秒能夠處理60個token，比V2快了3倍。一經發布，就在AI領域引起了軒然大波。

值得注意的是，DeepSeek-V3不僅支持GPU訓練與推理，并且發布即支持昇騰平臺，在昇騰硬件和MindIE推理引擎上實現高效推理，為用戶提供了更多計算硬件的選擇。

與GPT-4o不分伯仲，中國大模型領先全球

DeepSeek-V3是一款擁有6710億總參數和每個令牌激活370億參數的混合專家（Mixture-of-Experts，MoE）語言模型，由人工智能公司DeepSeek發布。它在繼承DeepSeek-V2核心架構的基礎上，進行了多項創新，顯著提升了模型的性能與效率。

DeepSeek-V3采用了創新的知識蒸餾方法，將DeepSeek R1系列模型中的推理能力遷移到標準LLM中，顯著提高了模型的推理性能。

根據DeepSeek公布的測試結果，其運行了多項基準測試來比較性能，V3模型已明顯優于包括Meta公司的Llama-3.1-405B和阿里云的Qwen 2.5-72B等一眾領先開源模型。在大多數基準測試中，它甚至部分超越了OpenAI的閉源模型GPT-4o。

根據DeepSeek公布的資料顯示，V3在知識類任務上的水平相比前代DeepSeek-V2.5顯著提升，接近當前表現最好的模型Anthropic公司于10月發布的Claude-3.5-Sonnet-1022。在美國數學競賽（AIME 2024，MATH）和全國高中數學聯賽（CNMO 2024）上，DeepSeek-V3大幅超過了其他所有開源閉源模型。在生成速度上，DeepSeek-V3的生成吐字速度從20TPS大幅提高至60TPS，相比V2.5模型實現了3倍的提升，能夠帶來更加流暢的使用體驗。

由于DeepSeek-V3模型首次在大規模模型上驗證了FP8訓練的可行性和有效性，通過協同優化有效克服了跨節點MoE訓練中的通信瓶頸，因此使得DeepSeek-V3在保持高性能的同時，實現了訓練成本的極大降低。據DeepSeek官方透露，該模型的訓練成本僅為557.6萬美元，遠低于同類模型的數億美金訓練成本。

作為開源大模型，DeepSeek-V3支持多種開源框架的本地部署，包括SGLang、LMDeploy和TensorRT-LLM，為開發者提供了豐富的選擇。與此同時，DeepSeek-V3還支持更多推理引擎，為用戶提供了更多計算產品的選擇，推動了中國AI產業的創新與發展。

原生支持昇騰AI，為用戶提供更多計算產品選擇

DeepSeek-V3不僅在技術上取得了重大的突破，而且還實現了對更多推理引擎的原生支持。以昇騰平臺為例，DeepSeek-V3發布即支持昇騰平臺，讓用戶能夠在昇騰硬件和MindIE推理引擎上實現高效推理，為國內用戶提供了軟硬件一體化的解決方案。

在魔樂社區上，已經發布了在昇騰硬件和MindIE推理引擎上實現DeepSeek-V3模型的推理的部署方式，用戶可以根據操作手冊，進行服務框架的調優、監控運維、指定NPU卡、在單機上啟動多實例等，優化服務性能和定制運行環境，充分發揮昇騰硬件設備的算力，提升模型推理的效率。（點擊了解詳細部署方式）

作為昇騰針對AI全場景業務的推理引擎，MindIE在通信加速、解碼優化、量化壓縮、最優并行、調度優化等方面展現出了顯著的優勢。

首先，通過高效的RPC（Remote Procedure Call，遠程過程調用）接口，MindIE實現了業務層與推理引擎之間的快速通信。這一接口支持Triton和TGI等主流推理服務框架，使得應用部署更加便捷，能夠在小時級內完成。

通信加速示意圖

其次，在解碼優化方面，MindIE提供了針對LLM（Large Language Model，大語言模型）和文生圖（SD模型）等特定應用場景的加速參考代碼和預置模型。這些優化措施使得MindIE在解碼階段能夠更快地生成推理結果，提高了整體性能。特別是針對大模型推理，MindIE支持Continuous Batching、PageAttention、FlashDecoding等加速特性，進一步提升了推理效率。

解碼優化示意圖

在量化壓縮方面，MindIE中的量化方法基于業界先進的量化技術，如SmoothQuant、AWQ等，這些技術能夠在保持模型精度的同時，顯著減少模型大小和計算量。

量化壓縮示意圖

另外，MindIE提供了最優并行策略，以充分利用多核處理器和GPU等硬件資源。在并行計算方面，MindIE支持Tensor Parallelism（張量并行）等策略，這些策略能夠使得模型在多個處理器核心上并行運行，從而加快推理速度。通過最優并行策略，MindIE能夠在保持模型精度和穩定性的同時，實現更高的推理性能。

最優并行策略示意圖

在調度優化方面，MindIE提供了多并發請求的調度功能，能夠高效地處理大量并發請求。此外，MindIE還支持統一內存池管理KV緩存，這一功能能夠減少內存碎片和訪問延遲，提高內存利用率。在任務調度方面，MindIE基于調度策略實現用戶請求組batch，通過合理的任務分配和調度，使得資源得到充分利用，提高了整體性能。

調度優化兩階段混合調度解碼示意圖

由于DeepSeek-V3能夠原生支持昇騰硬件和MindIE昇騰推理引擎，使得用戶能夠更加輕松地部署和使用DeepSeek-V3模型，進一步推動了AI技術在各個領域的廣泛應用。

加速AI技術創新發展，中國大模型迎來新機遇

51CTO認為，DeepSeek-v3的成功，不僅展示了中國在AI創新方面的實力，提升了中國大模型在全球科技競爭中的地位，并且降低了大模型的開發門檻，促進了中國AI軟硬件產業的發展，全面推動了AI技術的創新與發展。

首先，DeepSeek-V3充分展示了中國在AI創新方面的實力，提升了中國大模型在全球科技競爭中的地位。隨著DeepSeek-V3的成功，越來越多的國際目光將聚焦到中國AI領域，為中國公司爭取更多的合作機會和市場空間。

其次，DeepSeek-V3的開源策略和API定價策略，降低了AI技術的應用門檻，促進了技術分享和行業內的合作。開源的DeepSeek-V3不僅促進了AI技術的分享與交流，也進一步降低了行業內的應用門檻，為廣大開發者和企業提供了更為經濟實惠的選擇。

此外，DeepSeek-V3的成功也為中國大模型在垂直領域的深耕細作提供了范例。DeepSeek-V3可以應用于智能家居、智能客服、安防、醫療、寫作輔助等多個場景，這為中國大模型在垂直領域的發展提供了廣闊的空間和無限的可能。

最后，DeepSeek-V3由于支持更多推理引擎，有助于構建更加完善的AI生態系統。通過與更多推理引擎的緊密合作，DeepSeek-v3可以更好地適應國內用戶的需求，推動中國AI技術的普及和應用。

總結：

DeepSeek-V3的成功，不僅展示了中國在AI領域的創新實力，更為中國大模型的未來發展帶來了前所未有的新機遇。隨著技術的不斷進步和應用場景的不斷拓展，中國大模型將在全球科技競爭中發揮越來越重要的作用，為人們的生活帶來更多的便利和樂趣。

展望未來，隨著人工智能技術應用場景的不斷擴展，AI行業將迎來更為廣闊的發展空間。DeepSeek-V3的成功只是開端，中國大模型將在技術進步和廣泛應用的推動下，不斷實現新的突破。為此，我們有理由相信，中國大模型在未來的發展中能夠不斷創新和進步，為全球AI技術的未來發展貢獻更多的中國智慧和力量。

責任編輯：鳶瑋來源： 51CTO

DeepSeek 昇騰

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從DeepSeek-V3發布談大模型的技術突破與未來機遇