深夜突襲！DeepSeek-R1 重磅升級：媲美 OpenAl 最高 o3 模型，編碼能力直逼 Claude 4

2025-05-30 01:00:00

人工智能

官方稱這是一次“minor update”，但社區反饋卻指向另一種結論：在代碼生成、長時推理、格式控制等任務上，這個版本的 R1 的能力已經“近乎o3級別”。

5月28日凌晨，DeepSeek 在 Hugging Face 上開源了其更新版的 R1 模型。

此次更新并未更改名稱，只在模型路徑中標注“0528”以作區分。

圖源deepseek

而官方的口風是：“DeepSeek-R1 的性能據稱已對齊 OpenAI 的 o1 正式版本，其蒸餾出的輕量模型甚至在多個任務上超越了 o1-mini。”

圖片

圖注：推特網友在經典物理模擬測試中，對DeepSeek-R1新舊版本的對比

經國內微博用戶實測：編碼能力已經可以和Claude 4 掰手腕了。

圖片

此外，此次發布不僅涵蓋了權重、配置與模型文檔，也同步上線了 App、官網及 API 調用服務，接口對開發者開放。R1 使用 MIT 許可證發布，允許商用，也允許使用其輸出結果進行模型蒸餾。

圖片

圖注：官方稱，在數學、代碼、自然語言推理等任務上，性能比肩 OpenAI o1 正式版。圖源deepseek

這是中國大模型廠商中，少數同時在算法、產品與授權層面做“全棧開源”的公司之一。

從 R1 到 R1-0528：推理能力的重點優化

據官方信息，此次更新的 R1 模型（標注版本為0528）參數規模約為660B，在訓練后期大量采用強化學習技術，以少量標注數據優化模型在數學、編程和語言推理等任務上的表現。

雖然官方并未披露系統性基準測試結果，但多個國內外開發者社區實測顯示，R1-0528 在代碼生成和復雜推理任務中具備穩定輸出能力。

根據用戶測試，在 LiveCodeBench 編程測試環境中，R1-0528 在多個任務上表現接近 OpenAI o3-mini（High 模式）和 o4-mini（Medium 模式）。不過，目前尚無該基準的官方排行榜對這一說法予以印證。

圖注：推特用戶測試

尤其在長鏈條邏輯題中，開發者觀察到模型可進行多達20余步的符號化推理，且過程中結構一致性較好。在部分測試場景中，模型思考處理時間可持續數十分鐘。

與多數開源模型不同，DeepSeek-R1 的另一特征在于其明確允許并鼓勵“模型蒸餾”。

官方同步開源了兩個660B規模的大模型（DeepSeek-R1 與 DeepSeek-R1-Zero），并基于其推理輸出訓練了6個不同規模的子模型，其中 32B 與 70B 兩個中型版本，在多個通用能力維度上據稱“可對標 OpenAI o1-mini”。不過相關測試細節與完整評估方法尚未公開，仍待進一步驗證。

開源了6個小模型。圖源deepseek

對比之下，這種“從大模型生成小模型”的思路，也讓 DeepSeek 的開源策略更貼近“可部署”的實際場景，而非僅停留在評測表現層。

目前，這些模型均已上傳至 Hugging Face，且標注為 MIT License，意味著任何企業與開發者均可在不經授權的前提下用于商用或二次開發。

圖片

論文鏈接：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

在產品層面，用戶可通過“深度思考”模式直接體驗 R1 推理能力，在 App 或網頁端完成任務調用。API 接入方式為 model='deepseek-reasoner'，并提供明確定價策略：百萬 tokens 的輸入成本為 1 元（緩存命中）至 4 元（未命中），輸出成本為每百萬 tokens 16 元。

圖片

抱抱臉鏈接：https://huggingface.co/deepseek-ai

關于Deepseek：爭氣的國產AI

今年，DeepSeek突然登上全球AI舞臺。

它的聊天應用一度沖上蘋果和安卓商店的榜首，背后的模型在多個基準測試中超越Meta Llama和OpenAI GPT-4o，吸引了華爾街分析師和硅谷技術官員的罕見一致關注。微軟將其接入Azure，英偉達CEO稱其“創新出色”。

DeepSeek起初并不做 AI 模型，它的母公司是量化基金“九坤投資”，創始人梁文鋒是浙江大學出身的 AI 愛好者。2015年開始試水交易系統，2019年正式設立對沖基金。在量化交易中摸索多年的算法團隊，成為日后DeepSeek模型訓練的基礎。

DeepSeek Founder Liang Wenfeng

2023年，九坤成立DeepSeek Lab，作為科研獨立體。彼時正值中國AI創業熱潮復燃，百度、字節、阿里、MiniMax、月之暗面先后發布通用大模型。DeepSeek一開始就選了一條不一樣的路：自建數據中心、強調計算效率，并迅速在一年內迭代三代模型。

DeepSeek V2于2024年春天發布，以“推理能力”突出出圈。相比同行更重堆參數、跑分的路徑，DeepSeek強調模型在復雜任務下的“思考能力”——數學、物理、代碼，正是V2和后續R1模型發力的重點。

V3版本上線于2024年末，DeepSeek宣稱它在內測中超越了OpenAI的GPT-4o。2025年1月，DeepSeek-R1問世，定位為“reasoning model”。它在 Hugging Face 上以MIT協議發布，成為業內少見能商業化改造的高性能模型之一。

一方面，DeepSeek通過模型架構優化和訓練效率提升，大幅壓縮了推理成本。另一方面，它在市場價格上極為激進：不少模型免費開放、接口調用價格低于行業平均值，甚至迫使阿里、字節等國內玩家降價或免費開放部分模型。

這也引發了對其商業模式的質疑。截至目前，DeepSeek并未公開融資輪次，也尚未啟動商業化路徑。據接近公司人士透露，其運營主要依賴母公司九坤提供的算力和資金資源。相比依靠云廠商和VC支持的AI創業者，DeepSeek的路線更像是“實驗室模式”。

這種不以盈利為目的的打法，引發了一系列連鎖反應：2025年1月，受DeepSeek影響，英偉達股價單日下跌近18%；3月，美國政府多次點名DeepSeek，建議封禁；5月，微軟在參議院聽證會上明確禁止員工使用DeepSeek產品，理由是“數據安全”和“宣傳內容風險”。

圖注：來自抱抱臉聯合創始人的認可

從社區反饋來看，DeepSeek模型的可用性極高。截至今年5月，開發者基于R1模型創建的“衍生模型”已超過500個，總下載量突破250萬次。這種“實用主義開源”反而提升了模型影響力。

責任編輯：武曉燕來源：大數據文摘

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深夜突襲！DeepSeek-R1 重磅升級：媲美 OpenAl 最高 o3 模型，編碼能力直逼 Claude 4

從 R1 到 R1-0528：推理能力的重點優化

關于Deepseek：爭氣的國產AI