DeepSeek-R1小升級!體驗后有被驚艷到
今年1月,DeepSeek-R1橫空出世,憑借在性能和成本方面展現出的巨大優勢,迅速成為全球人工智能(AI)領域矚目的焦點。時隔四個月,這款大模型迎來了小升級。5月28日,DeepSeek正式發布了R1的最新版本——DeepSeek-R1-0528。
與上一版本相比,該版本的性能提升顯著。例如,在AIME2025測試中,其準確率從70%躍升至87.5%,幻覺率降低了45%到50%,還新增了128K上下文支持和Function?Calling功能。
具體來看,DeepSeek-R1-0528的編程能力取得了重大改進。在測試過程中,只需簡單的指令,模型便能快速生成高質量的代碼和設計作品。并且,R1-0528在生成復雜的前端頁面和動態動畫方面也表現出色。
此外,R1-0528的寫作和推理能力也變得更加完善。在一項實驗中,R1-0528在32K-token上下文中檢索和使用信息的準確性比之前的R1版本大幅提升。盡管在非常大的上下文中,其準確性仍會有所下降,但在32K上下文中,性能提升顯著。這表明,針對成千上萬字的參考資料,新模型能夠提供可靠的答案,而先前的模型則可能會遇到困難。
測試人員還注意到,R1-0528的書面輸出質量已經得到了顯著提升。寫作任務的輸出內容更貼近人類的寫作風格,讀起來更自然,風格更為合適。
紙上得來終覺淺,不如親自體驗一番。本次,我們將從信息整合、代碼編寫、文本創作三個維度進行測試,看看DeepSeek-R1-0528的實際表現。
一、代碼編寫
要求:編寫俄羅斯方塊網頁游戲代碼。
由DeepSeek-R1-0528生成的俄羅斯方塊網頁游戲界面美觀、響應迅速且體驗流暢。同時,游戲邏輯嚴謹完善,涵蓋了方塊的生成、旋轉、下落、消除行等一系列核心玩法機制。
二、信息收集
要求:1、生成2025年五一假期出游報告;2、以網頁形式呈現。
可以看到,DeepSeek-R1-0528能夠迅速整合來自行業報告、權威新聞等多渠道的信息。這些信息不僅全面,還經過篩選,剔除了不相關的內容,節省了用戶篩選信息的時間。
另外,網頁形式呈現非常美觀,以紅色為主色調,搭配簡潔明了的圖表,如柱狀圖、餅圖、雷達圖等,直觀展示數據;各板塊布局合理,信息層次清晰,色彩搭配協調,既具視覺沖擊力又便于用戶快速抓取關鍵信息。
三、文本創作
要求:寫一個短篇小說,東北科幻題材。
文學的魅力從不在?“標準答案”,而在不同視角碰撞出的火花......這里就不做評價了
寫在最后:
正如我們在測試中所看到的,無論是面對復雜的編程任務,還是需要深度信息挖掘與整理的工作,亦或是充滿想象力的文學創作,R1-0528都能提供令人滿意的解決方案。此次升級無疑為人工智能領域注入了新的活力,也為未來大模型的發展提供了方向和思路,期待DeepSeek在未來能夠帶來更多的突破和驚喜。