成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

剛剛,新版DeepSeek-R1正式開源!直逼o3編程強到離譜,一手實測來了

人工智能
新版DeepSeek-R1重磅開源,凌晨已放出權重!此次模型性能幾乎與o4-mini(Medium)相當,編程實測超越Claude 4 Sonnet。網友紛紛驚嘆:開源又一次勝利了。

臨近端午假期,DeepSeek果然又開始搞事。

就在今天凌晨,新版DeepSeek-R1正式開源了!

DeepSeek-R1-0528模型權重已上傳到HuggingFace,不過模型卡暫未更新。

圖片圖片

項目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

時隔4個月,DeepSeek-R1完成了超進化,編碼能力強到離譜,而且思考時間更長了。

據稱,新模型基于DeepSeek-V3-0324訓練(參數為660B)。

經典物理模擬測試中,DeepSeek-R1新舊版本的對比經典物理模擬測試中,DeepSeek-R1新舊版本的對比

在LiveCodeBench基準上,DeepSeek-R1-0528性能幾乎與o3-mini(High)和o4-mini(Medium)實力相當,一舉超越了Gemini 2.5 Flash。

圖片圖片

有網友稱贊,DeepSeek-R1能夠像o3一樣糾正思維鏈,并且像Claude一樣創造性進行世界構建。

圖片圖片

可以說,這是屬于開源模型的巨大勝利!

不用R2,直接對標SOTA

此次,DeepSeek-R1-0528更新核心亮點,網友做了一個濃縮版的總結:

  • 能像谷歌模型一樣深度推理
  • 文本生成優化:更自然,格式更佳
  • 獨特的推理風格:不僅快,而且更縝密
  • 支持長時思考:單任務處理時長可達30-60分鐘

圖片圖片

思考時間更長,成為了全網討論最多的一點。有網友實測后,R1思考時長超過了25分鐘。

圖片圖片

另外,這似乎是唯一一個能持續正確做對「9.9 - 9.11是多少」的模型。

圖片圖片

編程能力強到爆

網友實測顯示,新版DeepSeek-R1在編程方面簡直不可思議!

AI圈大佬「karminski-牙醫」用同一個prompt測試了DeepSeek-R1-0528和Claude 4 Sonnet后發現。

不管是光線照射在墻上形成的漫反射,還是球在撞擊后的運動方向,亦或是控制面板的美觀程度,這一把R1穩贏。

圖片圖片


圖片圖片

網友Alex的測試也顯示出,DeepSeek-R1在前端編碼的能力上超越了Claude 4 Sonnet。

圖片圖片

圖片

圖片

網友Haider.則是讓模型構建一個單詞評分系統。R1簡要思考后,就立刻出了關于代碼和工作測試的兩個文件,第一次運行就完美無瑕。

圖片圖片

此前,o3是唯一能完成這個任務的模型。而如今,R1堪稱是完成這個任務的最佳模型。

注意,R1的表現之所以如此驚人,是因為它返回的兩個文件在第一次都能運行良好,不用編輯,不用重試,這極其少見。

因為此前的大多數模型,要么會在邊緣情況下終端,要么會做得太復雜,要么缺少適當的測試覆蓋率。

圖片圖片

和Gemini高能PK

還有人將DeepSeek-R1與Gemini 2.5 Pro進行了對標。同一個提示下,它們各自的表現如何?

圖片圖片

首先是深度研究的能力,給出「研究微劑量服用裸蓋菇素對長期認知的影響,需引用學術來源」提示。

這一把Gemini的響應更快,引用了可靠的研究文獻,并且答案結構清晰。

再來看看它們搜索+對比能力如何?提示模型用實時來源列出全民基本收入(UBI)的五大優點和缺點。

這時,Gemini 2.5 Pro和DeepSeek R1表現都不錯,打成平手。

圖片圖片

Prompt: List top 5 pros/cons of Universal Basic InPrompt: List top 5 pros/cons of Universal Basic In

再讓模型為AI SaaS工具制定TikTok增長策略,兩款模型再次打成平局。

在智能體任務規劃方面,讓Gemini和DeepSeek一同設計一個完整的市場調研智能體,包含工具鏈、用戶角色和流程交接,結果是Gemini生成一張信息圖,而DeepSeek稍遜一籌。

由此,大家對DeepSeek-R2的期待值也是拉滿了。

一手實測來了

新版DeepSeek-R1的能力經過我們實測,雖然是一次「小版本」更新,但是性能得到了「史詩級」的加強。

尤其是編程能力,感覺已經超過或者足以媲美Claude 4和Gemini 2.5 Pro,可以說所有提示都是「一把過」,不需要任何修改!并且可以在網頁端直接運行,展示效果。

首先是制作一個「新智元」字體在宇宙中旋轉的3D動畫,完成度相當之高。

圖片圖片

對于簡單任務,DeepSeek-R1的思考時間明顯縮短,不再像以前對簡單任務也瘋狂思考。

設計一個新智元的官方網站,對于這種相對容易的任務,DeepSeek-R1-0528只需要10s的思考時間。

圖片圖片

能夠明顯感覺到,這次DeepSeek-R1新版本的思考過程更加穩定。

以模擬一個太陽系運行為例,還要求行星比例大小與實際相同,能看到DeepSeek-R1-0528的思考過程已經趨近于「完美」。

圖片圖片

最后,再給DeepSeek-R1-0528上點強度,要求演示籃球落地后的彈跳過程,并且要完美遵循現實中物理規律。

圖片

最終DeepSeek的成果還貼心的設計了參數控制面板,以及速度方向指示,是真的很強,以上所有代碼都是提示之后一遍過,沒有任何的Debug過程。

對于類似「華容道」的多步驟思考問題,DeepSeek-R1-0528的表現也非常完美,

比如「一位農夫要帶一只狐貍、一只鵝和一袋豆子過河。船每次只能載他和一樣物品。如果農夫不在場,狐貍會吃掉鵝,鵝會吃掉豆子。請問農夫該如何安排過河,才能確保所有物品安全?」這種復雜推理問題,DeepSeek-R1還可以給出核心問題所在。

圖片圖片

最令我感到震驚的是,這次的「思考」能力似乎進行了秘密加強。

我給他了一個非常無厘頭的族譜問題:「我的媽媽的爸爸的兒子的侄女的孫子的爺爺的舅舅的外孫女的姑姑,是我的誰,你能畫出關系族譜圖嗎?」

以下過程經過3倍加速,可以看到DeepSeek-R1真的在通過數學的符號化方式在進行思考。

圖片圖片

并且最后還真讓他分析出了結果,簡直震驚!這么長的思考鏈條都沒有斷。

圖片圖片

另外值得一提的是,這次的思考過程并沒有遇到服務算力不夠的情況,看來DeepSeek有針對性的提高了算力,畢竟現在是模型剛發布后的高峰「測評」期。

參考資料:

https://chat.deepseek.com/

https://x.com/i/status/1927770337170592033

https://x.com/Yuchenj_UW/status/1927828675837513793

https://x.com/chetaslua/status/1927716608384094545

https://x.com/AiBattle_/status/1927824419478536405

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-05-30 01:00:00

2025-04-22 09:12:00

AI模型數據

2025-04-29 09:06:00

2025-03-07 09:02:00

生成AI視頻

2025-02-18 08:15:03

2025-02-03 14:17:27

2025-03-20 10:20:16

2025-02-19 08:00:00

2024-11-21 14:00:00

模型AI

2025-02-26 09:44:14

2025-04-24 09:27:00

2025-04-30 14:12:36

Qwen3AgentMCP

2025-03-10 08:10:00

AI研究安全

2025-04-17 14:09:52

OpenAI模型編程

2025-04-29 10:39:46

2025-02-03 14:06:32

2021-12-16 08:27:54

Vue3 插件Vue應用

2025-06-17 17:14:01

DeepSeekSOTA開源

2025-06-17 09:09:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 二区视频| 欧洲视频一区二区 | 国产高清在线精品一区二区三区 | 视频一区二区三区在线观看 | 日韩精品视频在线观看一区二区三区 | 亚洲国产精品网站 | 天天干天天草 | 国产重口老太伦 | 精国产品一区二区三区 | 亚洲成人免费av | 国产精品视频区 | 性色av一区二区三区 | 国产精品视频www | 国产精品久久国产精品 | 日韩成人在线电影 | 国产视频中文字幕 | 成人免费视频网站在线观看 | 免费欧美 | 国产成人福利 | 亚洲精品二三区 | 中文字幕日韩专区 | 日韩av.com| 国产精品美女久久久久久久网站 | 日本在线视 | 亚洲午夜精品 | www.青青草| 黄色大片免费观看 | 国产高清精品在线 | 久久国产精品亚洲 | 在线日韩精品视频 | 麻豆精品久久久 | 中文字幕乱码一区二区三区 | 荷兰欧美一级毛片 | 精品久久久久久 | 中文字幕免费视频 | 中文字幕 国产精品 | 日日操操 | 91久久国产综合久久91精品网站 | 最新日韩精品 | 亚洲网在线 | 日韩激情一区 |