剛剛,新版DeepSeek-R1正式開源!直逼o3編程強到離譜,一手實測來了
臨近端午假期,DeepSeek果然又開始搞事。
就在今天凌晨,新版DeepSeek-R1正式開源了!
DeepSeek-R1-0528模型權重已上傳到HuggingFace,不過模型卡暫未更新。
圖片
項目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
時隔4個月,DeepSeek-R1完成了超進化,編碼能力強到離譜,而且思考時間更長了。
據稱,新模型基于DeepSeek-V3-0324訓練(參數為660B)。
經典物理模擬測試中,DeepSeek-R1新舊版本的對比
在LiveCodeBench基準上,DeepSeek-R1-0528性能幾乎與o3-mini(High)和o4-mini(Medium)實力相當,一舉超越了Gemini 2.5 Flash。
圖片
有網友稱贊,DeepSeek-R1能夠像o3一樣糾正思維鏈,并且像Claude一樣創造性進行世界構建。
圖片
可以說,這是屬于開源模型的巨大勝利!
不用R2,直接對標SOTA
此次,DeepSeek-R1-0528更新核心亮點,網友做了一個濃縮版的總結:
- 能像谷歌模型一樣深度推理
- 文本生成優化:更自然,格式更佳
- 獨特的推理風格:不僅快,而且更縝密
- 支持長時思考:單任務處理時長可達30-60分鐘
圖片
思考時間更長,成為了全網討論最多的一點。有網友實測后,R1思考時長超過了25分鐘。
圖片
另外,這似乎是唯一一個能持續正確做對「9.9 - 9.11是多少」的模型。
圖片
編程能力強到爆
網友實測顯示,新版DeepSeek-R1在編程方面簡直不可思議!
AI圈大佬「karminski-牙醫」用同一個prompt測試了DeepSeek-R1-0528和Claude 4 Sonnet后發現。
不管是光線照射在墻上形成的漫反射,還是球在撞擊后的運動方向,亦或是控制面板的美觀程度,這一把R1穩贏。
圖片
圖片
網友Alex的測試也顯示出,DeepSeek-R1在前端編碼的能力上超越了Claude 4 Sonnet。
圖片
網友Haider.則是讓模型構建一個單詞評分系統。R1簡要思考后,就立刻出了關于代碼和工作測試的兩個文件,第一次運行就完美無瑕。
圖片
此前,o3是唯一能完成這個任務的模型。而如今,R1堪稱是完成這個任務的最佳模型。
注意,R1的表現之所以如此驚人,是因為它返回的兩個文件在第一次都能運行良好,不用編輯,不用重試,這極其少見。
因為此前的大多數模型,要么會在邊緣情況下終端,要么會做得太復雜,要么缺少適當的測試覆蓋率。
圖片
和Gemini高能PK
還有人將DeepSeek-R1與Gemini 2.5 Pro進行了對標。同一個提示下,它們各自的表現如何?
圖片
首先是深度研究的能力,給出「研究微劑量服用裸蓋菇素對長期認知的影響,需引用學術來源」提示。
這一把Gemini的響應更快,引用了可靠的研究文獻,并且答案結構清晰。
再來看看它們搜索+對比能力如何?提示模型用實時來源列出全民基本收入(UBI)的五大優點和缺點。
這時,Gemini 2.5 Pro和DeepSeek R1表現都不錯,打成平手。
圖片
Prompt: List top 5 pros/cons of Universal Basic In
再讓模型為AI SaaS工具制定TikTok增長策略,兩款模型再次打成平局。
在智能體任務規劃方面,讓Gemini和DeepSeek一同設計一個完整的市場調研智能體,包含工具鏈、用戶角色和流程交接,結果是Gemini生成一張信息圖,而DeepSeek稍遜一籌。
由此,大家對DeepSeek-R2的期待值也是拉滿了。
一手實測來了
新版DeepSeek-R1的能力經過我們實測,雖然是一次「小版本」更新,但是性能得到了「史詩級」的加強。
尤其是編程能力,感覺已經超過或者足以媲美Claude 4和Gemini 2.5 Pro,可以說所有提示都是「一把過」,不需要任何修改!并且可以在網頁端直接運行,展示效果。
首先是制作一個「新智元」字體在宇宙中旋轉的3D動畫,完成度相當之高。
圖片
對于簡單任務,DeepSeek-R1的思考時間明顯縮短,不再像以前對簡單任務也瘋狂思考。
設計一個新智元的官方網站,對于這種相對容易的任務,DeepSeek-R1-0528只需要10s的思考時間。
圖片
能夠明顯感覺到,這次DeepSeek-R1新版本的思考過程更加穩定。
以模擬一個太陽系運行為例,還要求行星比例大小與實際相同,能看到DeepSeek-R1-0528的思考過程已經趨近于「完美」。
圖片
最后,再給DeepSeek-R1-0528上點強度,要求演示籃球落地后的彈跳過程,并且要完美遵循現實中物理規律。
最終DeepSeek的成果還貼心的設計了參數控制面板,以及速度方向指示,是真的很強,以上所有代碼都是提示之后一遍過,沒有任何的Debug過程。
對于類似「華容道」的多步驟思考問題,DeepSeek-R1-0528的表現也非常完美,
比如「一位農夫要帶一只狐貍、一只鵝和一袋豆子過河。船每次只能載他和一樣物品。如果農夫不在場,狐貍會吃掉鵝,鵝會吃掉豆子。請問農夫該如何安排過河,才能確保所有物品安全?」這種復雜推理問題,DeepSeek-R1還可以給出核心問題所在。
圖片
最令我感到震驚的是,這次的「思考」能力似乎進行了秘密加強。
我給他了一個非常無厘頭的族譜問題:「我的媽媽的爸爸的兒子的侄女的孫子的爺爺的舅舅的外孫女的姑姑,是我的誰,你能畫出關系族譜圖嗎?」
以下過程經過3倍加速,可以看到DeepSeek-R1真的在通過數學的符號化方式在進行思考。
圖片
并且最后還真讓他分析出了結果,簡直震驚!這么長的思考鏈條都沒有斷。
圖片
另外值得一提的是,這次的思考過程并沒有遇到服務算力不夠的情況,看來DeepSeek有針對性的提高了算力,畢竟現在是模型剛發布后的高峰「測評」期。
參考資料:
https://x.com/i/status/1927770337170592033
https://x.com/Yuchenj_UW/status/1927828675837513793
https://x.com/chetaslua/status/1927716608384094545
https://x.com/AiBattle_/status/1927824419478536405
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main