成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<dl id="sa0aw"></dl>

<object id="sa0aw"><rt id="sa0aw"></rt></object>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

剛剛，新版DeepSeek-R1正式開源！直逼o3編程強到離譜，一手實測來了

作者：新智元 2025-05-29 09:07:37

新版DeepSeek-R1重磅開源，凌晨已放出權重！此次模型性能幾乎與o4-mini（Medium）相當，編程實測超越Claude 4 Sonnet。網友紛紛驚嘆：開源又一次勝利了。

臨近端午假期，DeepSeek果然又開始搞事。

就在今天凌晨，新版DeepSeek-R1正式開源了！

DeepSeek-R1-0528模型權重已上傳到HuggingFace，不過模型卡暫未更新。

圖片

項目地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

時隔4個月，DeepSeek-R1完成了超進化，編碼能力強到離譜，而且思考時間更長了。

據稱，新模型基于DeepSeek-V3-0324訓練（參數為660B）。

經典物理模擬測試中，DeepSeek-R1新舊版本的對比

在LiveCodeBench基準上，DeepSeek-R1-0528性能幾乎與o3-mini（High）和o4-mini（Medium)實力相當，一舉超越了Gemini 2.5 Flash。

圖片

有網友稱贊，DeepSeek-R1能夠像o3一樣糾正思維鏈，并且像Claude一樣創造性進行世界構建。

圖片

可以說，這是屬于開源模型的巨大勝利！

不用R2，直接對標SOTA

此次，DeepSeek-R1-0528更新核心亮點，網友做了一個濃縮版的總結：

能像谷歌模型一樣深度推理
文本生成優化：更自然，格式更佳
獨特的推理風格：不僅快，而且更縝密
支持長時思考：單任務處理時長可達30-60分鐘

圖片

思考時間更長，成為了全網討論最多的一點。有網友實測后，R1思考時長超過了25分鐘。

圖片

另外，這似乎是唯一一個能持續正確做對「9.9 - 9.11是多少」的模型。

圖片

編程能力強到爆

網友實測顯示，新版DeepSeek-R1在編程方面簡直不可思議！

AI圈大佬「karminski-牙醫」用同一個prompt測試了DeepSeek-R1-0528和Claude 4 Sonnet后發現。

不管是光線照射在墻上形成的漫反射，還是球在撞擊后的運動方向，亦或是控制面板的美觀程度，這一把R1穩贏。

圖片

圖片

網友Alex的測試也顯示出，DeepSeek-R1在前端編碼的能力上超越了Claude 4 Sonnet。

圖片

網友Haider.則是讓模型構建一個單詞評分系統。R1簡要思考后，就立刻出了關于代碼和工作測試的兩個文件，第一次運行就完美無瑕。

圖片

此前，o3是唯一能完成這個任務的模型。而如今，R1堪稱是完成這個任務的最佳模型。

注意，R1的表現之所以如此驚人，是因為它返回的兩個文件在第一次都能運行良好，不用編輯，不用重試，這極其少見。

因為此前的大多數模型，要么會在邊緣情況下終端，要么會做得太復雜，要么缺少適當的測試覆蓋率。

圖片

和Gemini高能PK

還有人將DeepSeek-R1與Gemini 2.5 Pro進行了對標。同一個提示下，它們各自的表現如何？

圖片

首先是深度研究的能力，給出「研究微劑量服用裸蓋菇素對長期認知的影響，需引用學術來源」提示。

這一把Gemini的響應更快，引用了可靠的研究文獻，并且答案結構清晰。

再來看看它們搜索+對比能力如何？提示模型用實時來源列出全民基本收入（UBI）的五大優點和缺點。

這時，Gemini 2.5 Pro和DeepSeek R1表現都不錯，打成平手。

圖片

Prompt: List top 5 pros/cons of Universal Basic In

再讓模型為AI SaaS工具制定TikTok增長策略，兩款模型再次打成平局。

在智能體任務規劃方面，讓Gemini和DeepSeek一同設計一個完整的市場調研智能體，包含工具鏈、用戶角色和流程交接，結果是Gemini生成一張信息圖，而DeepSeek稍遜一籌。

由此，大家對DeepSeek-R2的期待值也是拉滿了。

一手實測來了

新版DeepSeek-R1的能力經過我們實測，雖然是一次「小版本」更新，但是性能得到了「史詩級」的加強。

尤其是編程能力，感覺已經超過或者足以媲美Claude 4和Gemini 2.5 Pro，可以說所有提示都是「一把過」，不需要任何修改！并且可以在網頁端直接運行，展示效果。

首先是制作一個「新智元」字體在宇宙中旋轉的3D動畫，完成度相當之高。

圖片

對于簡單任務，DeepSeek-R1的思考時間明顯縮短，不再像以前對簡單任務也瘋狂思考。

設計一個新智元的官方網站，對于這種相對容易的任務，DeepSeek-R1-0528只需要10s的思考時間。

圖片

能夠明顯感覺到，這次DeepSeek-R1新版本的思考過程更加穩定。

以模擬一個太陽系運行為例，還要求行星比例大小與實際相同，能看到DeepSeek-R1-0528的思考過程已經趨近于「完美」。

圖片

最后，再給DeepSeek-R1-0528上點強度，要求演示籃球落地后的彈跳過程，并且要完美遵循現實中物理規律。

最終DeepSeek的成果還貼心的設計了參數控制面板，以及速度方向指示，是真的很強，以上所有代碼都是提示之后一遍過，沒有任何的Debug過程。

對于類似「華容道」的多步驟思考問題，DeepSeek-R1-0528的表現也非常完美，

比如「一位農夫要帶一只狐貍、一只鵝和一袋豆子過河。船每次只能載他和一樣物品。如果農夫不在場，狐貍會吃掉鵝，鵝會吃掉豆子。請問農夫該如何安排過河，才能確保所有物品安全？」這種復雜推理問題，DeepSeek-R1還可以給出核心問題所在。

圖片

最令我感到震驚的是，這次的「思考」能力似乎進行了秘密加強。

我給他了一個非常無厘頭的族譜問題：「我的媽媽的爸爸的兒子的侄女的孫子的爺爺的舅舅的外孫女的姑姑，是我的誰，你能畫出關系族譜圖嗎?」

以下過程經過3倍加速，可以看到DeepSeek-R1真的在通過數學的符號化方式在進行思考。

圖片

并且最后還真讓他分析出了結果，簡直震驚！這么長的思考鏈條都沒有斷。

圖片

另外值得一提的是，這次的思考過程并沒有遇到服務算力不夠的情況，看來DeepSeek有針對性的提高了算力，畢竟現在是模型剛發布后的高峰「測評」期。

參考資料：

https://chat.deepseek.com/

https://x.com/i/status/1927770337170592033

https://x.com/Yuchenj_UW/status/1927828675837513793

https://x.com/chetaslua/status/1927716608384094545

https://x.com/AiBattle_/status/1927824419478536405

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

責任編輯：武曉燕來源：新智元

DeepSeek-R o3 編程

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：二区视频| 欧洲视频一区二区 | 国产高清在线精品一区二区三区 | 视频一区二区三区在线观看 | 日韩精品视频在线观看一区二区三区 | 亚洲国产精品网站 | 天天干天天草 | 国产重口老太伦 | 精国产品一区二区三区 | 亚洲成人免费av | 国产精品视频区 | 性色av一区二区三区 | 国产精品视频www | 国产精品久久国产精品 | 日韩成人在线电影 | 国产视频中文字幕 | 成人免费视频网站在线观看 | 免费欧美 | 国产成人福利 | 亚洲精品二三区 | 中文字幕日韩专区 | 日韩av.com| 国产精品美女久久久久久久网站 | 日本在线视 | 亚洲午夜精品 | www.青青草| 黄色大片免费观看 | 国产高清精品在线 | 久久国产精品亚洲 | 在线日韩精品视频 | 麻豆精品久久久 | 中文字幕乱码一区二区三区 | 荷兰欧美一级毛片 | 精品久久久久久 | 中文字幕免费视频 | 中文字幕国产精品 | 日日操操 | 91久久国产综合久久91精品网站 | 最新日韩精品 | 亚洲网在线 | 日韩激情一区 |

<object id="e6m0m"></object>