全面解讀:新版R1低調升級!編程強到起飛直追o3-high,支持30分鐘以上長思考,推理、寫作都進化了! 原創
出品 | 51CTO技術棧(微信號:blog51cto)
DeepSeek 于 5 月 28 日晚間在微信平臺低調宣布——R1 模型完成“小版本試升級”!
圖片
這波有多低調呢?DeepSeek 又是“0 宣發”出手,連一句英文公告都沒有。海外網友想知道發生了什么,只能翻譯我們在微信上這則小通知。
圖片
今天凌晨,新的R1已經上線抱抱臉了,同樣采用的是MIT協議。
??https://huggingface.co/deepseek-ai/DeepSeek-R1-0528??
不過大家期待的模型卡部分仍然是空白,目前也沒有官方的基準測試。
圖片
但懂行的人一看就知道,DeepSeek 又是在“悶聲干大事”。
圖片
這次更新“雖小”,但用料卻非常猛,讓網友實測后驚呼:“這還叫小版本?”
最新更新的 DeepSeek R1 在 LiveCodeBench 上幾乎與 openAI o3-high 模型打成平手!
圖片
不少網友實測它的編程能力,直指可以媲美 Gemini 2.5 Pro,和一眾頂級模型掰手腕。
圖片
更令人驚喜的是,實測顯示它在思維鏈、寫作能力、長文本處理等方面也有顯著進步。
- 思維鏈(Chain-of-Thought)能力顯著提升
- 長時間思考更穩定,每個任務最多 30-60 分鐘
- 寫作表現更加自然、結構更清晰
1.編程能力顯著提升,實測表現甚至超越Gemini 2.5 Pro和Opus 4
Reddit 上一條高贊評論寫道:新版的 R1 “dangerously insane”(致命地瘋狂)。
“我剛剛用 DeepSeek R1-0528 成功解決了 RooCode 上一些進行中的編程難題。”
不僅如此,其他網友在使用了R1的編程之后,也紛紛化身“自來水”:
一次性跑通了我所有 Claude 3.7 用過的提示詞,甚至包括 Claude 3.7 和 Opus 4 都失敗過的那些。到目前為止,我真的非常驚訝。
圖片
我可以確認這一點。我試了幾個我常用的 JavaScript 提示詞,它一次就生成了我目前見過最好的實現版本。
圖片
除了“能寫代碼”,R1 在前端 UI 生成上的理解能力也被多位用戶提及。例如,有開發者使用新版 R1 一次性生成了一個完整的學生信息管理系統,界面結構清晰、交互完整:
圖片
甚至還有用戶嘗試構建“商品庫存管理平臺”時,直接獲得了 1000 多行可用代碼。不僅沒有報錯,所有按鈕都能正確執行出庫、入庫等邏輯操作。
來源:X用戶@op7418
小編也嘗試測試了新版R1在交互式前端動畫上的表現,輸入的 prompt 是:
寫一個模擬小球被彈簧牽引上下振蕩的動畫。初始位置偏離平衡點后開始往返運動,帶阻尼效果。用 JS 和 canvas 實現。
結果頁面不僅完成了動畫邏輯,還自動生成了彈簧系數、阻尼系數的調節面板。代碼結構清晰,幾乎無需調試,已經具備了輕量交互系統的原型能力。這種水平,給初高中生課堂做課堂演示都夠用了!
2.R1超長思考化身“深度研究”,每個任務最多 30-60 分鐘
有網友在 X 上分享,更新后的R1居然能思考超過25分鐘!!!
據了解,在某些任務下R1的思考甚至能飆升到30-60分鐘,這是多么瘋狂的算力燃燒。
圖片
這位網友說,在任務期間新的R1不斷補充新的信息源,表現出類似 OpenAI “深度研究”功能的行為。
圖片
為了測試是否長時間思考是否能做“深度研究”,小編決定進行測試,首先是看看生成技術報告的能力,輸入prompt:
搜索大量的信息,幫我生成一份小米玄戒芯片的報告
不過,這個指令沒有觸發R1的長時間思考,模型思考31秒,搜索了46個網頁后就開始給定答案了,不過非常強悍的是,這份報告結構完整,生成的內容長度遠遠超越了前代R1,正文足有洋洋灑灑5千字內容:
圖片
第二次升級了問題的難度,請R1解決一個復雜的幾何建模問題:
一個點 P 繞圓心 O 做勻速圓周運動,半徑為 R,周期為 T。與此同時,點 Q 從 P 的初始位置出發,沿直線勻速前進,方向始終指向點 P 當前的位置,速度為常數 v(小于點 P 的切線速度)。建立點 Q 的運動路徑的數學模型(最好用微分方程或參數方程表示)。(除此之外還追加了小的任務,比如要用代碼畫出 Q 的實際軌跡圖像,模擬其隨時間變化的路徑。)
這個問題也只用了279秒完成了,目前不清楚什么問題才能觸發超長思考。
圖片
除了長時間思考,cot的推理風格也發生了一些變化,和答案的銜接會更流暢、符合用戶閱讀習慣。
圖片
3.寫作風格的自然進化:不再迷戀“量子糾纏”
當然,這次 R1 的提升不僅體現在推理和編程上,在文本生成的風格表達上也邁出了一大步。
前代 R1 有個比較突出的風格特征:AI 輸出常常帶有濃厚的 “deepseek 語感”——無論什么題材,時常夾雜“星云”、“量子糾纏”、“賽博朋克”、“宇宙的盡頭”等充滿科幻感的意象。
雖然偶爾增添了一點 AI 獨特的風格趣味,但對于強調人物情感、日常細節的寫作任務來說,這種“寫作模板感”顯得格格不入。
有用戶在實測中提到,新版R1在這方面的改進:
中文寫作也變強了……這一次cot(思維鏈)都明顯看出來人味兒重了,也沒有了各種機械、莫名其妙的修辭,而且輸出很長。
圖片
小編也進行了類似的測試,能看出來R1的進步非常顯著,雖然不能說模仿的名家有多么出色,但起碼有那味了!
請用“第一人稱”的方式,寫一篇描寫北京胡同中一個夏日午后的小說片段,分別以魯迅、王小波和張愛玲的風格呈現一個情節。
圖片
圖片
4.寫在最后
又快到假期,DeepSeek 照例更新。
這次 R1可不是表面說的那種“小修小補”:編程一騎絕塵,打破了DS“缺乏后勁”的誤讀;長思考、自然寫作也讓它更像一個能完成任務的“智能體”進化。
模型在悄悄變強,吞噬著更多任務邊界。
R2,會不會很快就來? 這波更新,是預熱,還是還得再等等?你怎么看?
本文轉載自??51CTO技術棧??,作者:伊風
