DeepSeek熱度正盛,被神話還是確有實力?
2025年年初,中國初創公司DeepSeek以一種近乎現象級的速度崛起,引發了全球科技界的熱議。其模型在蘋果應用商店的下載量超越ChatGPT、訓練成本僅為競爭對手的零頭、技術能力被冠以“顛覆性”標簽……這些標簽讓DeepSeek迅速成為輿論焦點。
然而,在鋪天蓋地的贊譽與爭議中,一個核心問題亟待回答:DeepSeek的“神話”究竟是資本市場的造勢,還是AI實力的真實體現?
技術突破:低成本與高性能的雙重革命
實際上,DeepSeek的崛起并非偶然,其核心在于通過工程化能力與創新,實現了降本增效。其技術路徑圍繞高效架構設計、算法優化與資源管理展開。例如,采用專家混合架構(MoE)將任務分解為子任務并行處理,顯著提升推理效率;通過持續迭代優化模型參數,實現性能躍遷的同時降低算力消耗。此外,DeepSeek采用多云架構動態分配算力資源,結合精細化成本控制策略,從硬件采購到能耗管理全面壓縮開支。
以DeepSeek-V3為例,作為一款集成6710億參數的專家混合模型(MoE),DeepSeek-V3擁有6710億參數,每個token激活370億參數,能夠處理復雜的編程、數學和推理任務。在多語言編程測試排行榜中,DeepSeek?V3超越了Anthropic的Claude?3.5?Sonnet大模型,僅次于OpenAI?o1大模型。特別是在數學與代碼能力方面表現突出,DeepSeek?V3在MATH-500測試中,準確率達90.2%,遠超GPT-4o(74.6%)和Llama?3.1(73.8%)。
在訓練成本方面,DeepSeek-V3僅使用了2048個H800?GPU,總訓練GPU卡時為2788千小時,平均到每個GPU?上,僅為1361小時,約合56.7天。與之對比,GPT-4?MoE使用8000個H100訓練了90天,合計約為17280千卡時,相當于DeepSeek-V3的6.2倍。
不僅如此,這種低成本高產出的技術路線,不僅降低了對高端GPU的依賴程度,還能夠與國產芯片架構完美適配,助力國產芯片產業的發展。
生態重構:推動國產算力生態繁榮發展
正如上文所提到的那樣,DeepSeek的熱度不僅源于技術突破,更為關鍵的是其對國產算力生態所起到的催化作用。
具體而言,從芯片層面來看,華為昇騰、沐曦、天數智芯、摩爾線程、海光信息、壁仞科技、燧原科技等國產芯片廠商宣布適配DeepSeek大模型服務。
另外,從云服務層面來看,華為云、騰訊云、阿里云、百度云等國內云廠商均在其云服務平臺上線了DeepSeek大模型。
可以說,DeepSeek與芯片廠商及云服務廠商的緊密合作,形成了強大的產業協同效應,有力推動了國產算力生態的繁榮發展,為AI技術的廣泛應用和普及奠定了基礎。
值得一提的是,在各行業的應用中,DeepSeek也取得了顯著進展。其中,在金融領域,已有超過30家券商、基金、銀行等機構接入DeepSeek,為金融業務的創新和發展提供了技術支持。在消費電子領域,華為、榮耀、OPPO、星際魅族、努比亞、vivo等國產手機品牌宣布接入DeepSeek模型,將為用戶帶來更智能的使用體驗。在汽車領域,吉利汽車、東風汽車、智己汽車、長城汽車、廣汽、北汽、奇瑞集團、零跑汽車、比亞迪、一汽集團、長安汽車等超過20家汽車品牌或汽車集團接入DeepSeek,助力汽車智能化水平的提升。在家電領域,海爾、海信視像、長虹等多家企業也接入了?DeepSeek,為家電產品的智能化升級注入了動力。
爭議焦點:服務器穩定性與產業閉環
盡管DeepSeek展現出技術突破與生態整合的潛力,但其發展路徑仍面臨多重挑戰。首當其沖的是算力需求與供給的失衡,盡管采用多云架構動態分配資源,但推理階段算力需求的爆炸性增長導致服務器頻繁過載,用戶常遭遇服務器繁忙的提示。
其次,技術閉環尚未完全實現:盡管官方宣稱模型與國產芯片高度適配,但實際訓練仍依賴英偉達英偉達GPU系列芯片,國產芯片更多承擔推理任務,尚未形成“訓練-推理-優化”全鏈條閉環。
由此可見,DeepSeek需要進一步完善其技術生態,降低對外部技術的依賴,提高國產技術的自主可控性。
寫在最后:
未來,DeepSeek能否從“現象級產品”升級為全球AI生態的核心參與者,將取決于其技術自主性與生態閉環的完善程度。具體包括:一是技術路徑的持續優化:進一步提升模型效率、降低算力依賴,并推動國產芯片在訓練環節的應用;二是生態協同的深化:強化與芯片、云服務、終端廠商的協作,構建從硬件到應用的完整產業鏈;三是商業場景的深度融合:結合金融、汽車、消費電子等垂直領域需求,探索可持續的商業模式;四是政策與人才支持:依托國內新質生產力發展戰略,吸引頂尖人才并完善AI倫理與安全框架。