成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全面解讀:新版R1低調升級!編程強到起飛直追o3-high,支持30分鐘以上長思考,推理、寫作都進化了!

原創 精選
人工智能
這波有多低調呢?DeepSeek 又是“0 宣發”出手,連一句英文公告都沒有。海外網友想知道發生了什么,只能翻譯我們在微信上這則小通知。

出品 | 51CTO技術棧(微信號:blog51cto)

DeepSeek 于 5 月 28 日晚間在微信平臺低調宣布——R1 模型完成“小版本試升級”!

圖片圖片

這波有多低調呢?DeepSeek 又是“0 宣發”出手,連一句英文公告都沒有。海外網友想知道發生了什么,只能翻譯我們在微信上這則小通知。

圖片圖片

今天凌晨,新的R1已經上線抱抱臉了,同樣采用的是MIT協議。

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

不過大家期待的模型卡部分仍然是空白,目前也沒有官方的基準測試。

圖片圖片

但懂行的人一看就知道,DeepSeek 又是在“悶聲干大事”。

圖片圖片

這次更新“雖小”,但用料卻非常猛,讓網友實測后驚呼:“這還叫小版本?”

最新更新的 DeepSeek R1 在 LiveCodeBench 上幾乎與 openAI o3-high 模型打成平手!

圖片圖片

不少網友實測它的編程能力,直指可以媲美 Gemini 2.5 Pro,和一眾頂級模型掰手腕。

圖片圖片

更令人驚喜的是,實測顯示它在思維鏈、寫作能力、長文本處理等方面也有顯著進步。

  • 思維鏈(Chain-of-Thought)能力顯著提升
  • 長時間思考更穩定,每個任務最多 30-60 分鐘
  •  寫作表現更加自然、結構更清晰

1.編程能力顯著提升,實測表現甚至超越Gemini 2.5 Pro和Opus 4

Reddit 上一條高贊評論寫道:新版的 R1 “dangerously insane”(致命地瘋狂)。

“我剛剛用 DeepSeek R1-0528 成功解決了 RooCode 上一些進行中的編程難題。”

圖片

不僅如此,其他網友在使用了R1的編程之后,也紛紛化身“自來水”:

一次性跑通了我所有 Claude 3.7 用過的提示詞,甚至包括 Claude 3.7 和 Opus 4 都失敗過的那些。到目前為止,我真的非常驚訝。

圖片圖片

我可以確認這一點。我試了幾個我常用的 JavaScript 提示詞,它一次就生成了我目前見過最好的實現版本。

圖片圖片

除了“能寫代碼”,R1 在前端 UI 生成上的理解能力也被多位用戶提及。例如,有開發者使用新版 R1 一次性生成了一個完整的學生信息管理系統,界面結構清晰、交互完整:

圖片圖片

甚至還有用戶嘗試構建“商品庫存管理平臺”時,直接獲得了 1000 多行可用代碼。不僅沒有報錯,所有按鈕都能正確執行出庫、入庫等邏輯操作。

來源:X用戶@op7418來源:X用戶@op7418

小編也嘗試測試了新版R1在交互式前端動畫上的表現,輸入的 prompt 是:

寫一個模擬小球被彈簧牽引上下振蕩的動畫。初始位置偏離平衡點后開始往返運動,帶阻尼效果。用 JS 和 canvas 實現。

結果頁面不僅完成了動畫邏輯,還自動生成了彈簧系數、阻尼系數的調節面板。代碼結構清晰,幾乎無需調試,已經具備了輕量交互系統的原型能力。這種水平,給初高中生課堂做課堂演示都夠用了!

2.R1超長思考化身“深度研究”,每個任務最多 30-60 分鐘

有網友在 X 上分享,更新后的R1居然能思考超過25分鐘!!!

據了解,在某些任務下R1的思考甚至能飆升到30-60分鐘,這是多么瘋狂的算力燃燒。

圖片圖片

這位網友說,在任務期間新的R1不斷補充新的信息源,表現出類似 OpenAI “深度研究”功能的行為。

圖片圖片

為了測試是否長時間思考是否能做“深度研究”,小編決定進行測試,首先是看看生成技術報告的能力,輸入prompt:

搜索大量的信息,幫我生成一份小米玄戒芯片的報告

不過,這個指令沒有觸發R1的長時間思考,模型思考31秒,搜索了46個網頁后就開始給定答案了,不過非常強悍的是,這份報告結構完整,生成的內容長度遠遠超越了前代R1,正文足有洋洋灑灑5千字內容:

圖片圖片

第二次升級了問題的難度,請R1解決一個復雜的幾何建模問題:

一個點 P 繞圓心 O 做勻速圓周運動,半徑為 R,周期為 T。與此同時,點 Q 從 P 的初始位置出發,沿直線勻速前進,方向始終指向點 P 當前的位置,速度為常數 v(小于點 P 的切線速度)。建立點 Q 的運動路徑的數學模型(最好用微分方程或參數方程表示)。(除此之外還追加了小的任務,比如要用代碼畫出 Q 的實際軌跡圖像,模擬其隨時間變化的路徑。)

這個問題也只用了279秒完成了,目前不清楚什么問題才能觸發超長思考。

圖片圖片

除了長時間思考,cot的推理風格也發生了一些變化,和答案的銜接會更流暢、符合用戶閱讀習慣。

圖片圖片

3.寫作風格的自然進化:不再迷戀“量子糾纏”

當然,這次 R1 的提升不僅體現在推理和編程上,在文本生成的風格表達上也邁出了一大步。

前代 R1 有個比較突出的風格特征:AI 輸出常常帶有濃厚的 “deepseek 語感”——無論什么題材,時常夾雜“星云”、“量子糾纏”、“賽博朋克”、“宇宙的盡頭”等充滿科幻感的意象。

雖然偶爾增添了一點 AI 獨特的風格趣味,但對于強調人物情感、日常細節的寫作任務來說,這種“寫作模板感”顯得格格不入。

有用戶在實測中提到,新版R1在這方面的改進:

中文寫作也變強了……這一次cot(思維鏈)都明顯看出來人味兒重了,也沒有了各種機械、莫名其妙的修辭,而且輸出很長。

圖片圖片

小編也進行了類似的測試,能看出來R1的進步非常顯著,雖然不能說模仿的名家有多么出色,但起碼有那味了!

請用“第一人稱”的方式,寫一篇描寫北京胡同中一個夏日午后的小說片段,分別以魯迅、王小波和張愛玲的風格呈現一個情節。

圖片圖片

圖片圖片

4.寫在最后

又快到假期,DeepSeek 照例更新。

這次 R1可不是表面說的那種“小修小補”:編程一騎絕塵,打破了DS“缺乏后勁”的誤讀;長思考、自然寫作也讓它更像一個能完成任務的“智能體”進化。

模型在悄悄變強,吞噬著更多任務邊界。

 R2,會不會很快就來? 這波更新,是預熱,還是還得再等等?你怎么看?

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2017-07-18 11:10:45

2025-02-07 08:33:02

2025-05-29 09:07:37

2017-01-10 09:07:53

tcpdumpGET請求

2025-03-10 08:10:00

AI研究安全

2025-02-03 14:06:32

2013-05-03 10:57:09

泛型泛型教程

2025-03-03 08:17:00

DeepSeek模型數據

2025-03-25 09:48:22

2025-02-06 18:37:46

GPUQwen2.5模型

2010-07-16 13:25:06

系統升級錄Windows 7openSUSE

2020-05-22 10:20:27

Shiro架構字符串

2014-08-08 09:30:04

android scrollview

2025-03-03 00:04:00

DeepSeek教程部署

2009-09-14 08:27:16

Windows 7升級時間

2019-03-04 15:36:18

Nginx版本運維

2025-05-30 00:00:00

2025-02-08 14:03:25

2017-06-07 18:40:33

PromiseJavascript前端

2024-08-27 13:43:38

Spring系統業務
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 2021狠狠天天天 | 日韩一二区 | 久久99蜜桃综合影院免费观看 | 国产一区二区精品在线观看 | 日日骑| 国产成人精品一区二三区在线观看 | 中文字幕啪啪 | 久久网日本 | 免费亚洲婷婷 | 亚洲三区在线 | 欧美国产日韩精品 | www.天天操.com | 日韩精品二区 | 免费的色网站 | 欧美日韩一区二区在线观看 | 久久蜜桃精品 | 网色 | 日韩国产三区 | 美女视频h| 国产区一区二区三区 | 日韩欧美高清dvd碟片 | 色99视频 | 久久av一区二区三区 | 国产蜜臀97一区二区三区 | 日韩二区| 春色av| 中文欧美日韩 | 男人的天堂久久 | 精品一区二区久久久久久久网站 | 国产综合久久 | 91精品久久久久久久久久 | 午夜精品久久久久久久久久久久久 | 午夜影视 | 欧美日韩中文在线 | 看av电影| 免费久久网站 | 夜夜爆操| 欧美一级片在线观看 | 99精品一区二区 | 日韩在线观看精品 | 亚洲国产偷 |