推理性能直逼o1，DeepSeek再次出手，重點：即將開源

作者：機器之心 2024-11-21 14:00:00

DeepSeek 上線了全新的推理模型 DeepSeek-R1-Lite-Preview ，直接沖擊 OpenAI o1 保持了兩個多月的大模型霸主地位。

DeepSeek 又出手了，這次又是重磅炸彈。

昨晚，DeepSeek 上線了全新的推理模型 DeepSeek-R1-Lite-Preview ，直接沖擊 OpenAI o1 保持了兩個多月的大模型霸主地位。

在美國數學競賽（AMC）中難度等級最高的 AIME 以及全球頂級編程競賽（codeforces）等權威評測中，DeepSeek-R1-Lite-Preview 模型已經大幅超越了 GPT-4o 等頂尖模型，有三項成績還領先于 OpenAI o1-preview。

背后的秘訣，就是「深度思考」。

更多的強化學習、原生的思維鏈、更長的推理時間，能讓大模型的性能更強，這在領域內已經是廣泛共識。這種模式其實非常像人類大腦的深度思考。

與 OpenAI o1 有點不一樣的是，DeepSeek-R1-Lite-Preview 會在回復中展示「思路鏈」推理，也就是響應查詢和輸入的不同鏈或「思路」，并解釋它在做什么以及為什么這樣做。

就像是解題時，有人喜歡將每一步驟都詳盡地寫在卷子上，而 DeepSeek-R1-Lite-Preview 更進一步：把內心 OS 也都寫出來了。

DeepSeek 官方表示，DeepSeek R1 系列模型使用強化學習訓練，推理過程包含大量反思和驗證，思維鏈長度可達數萬字。已經發布的 DeepSeek-R1-Lite-Preview 使用的是一個較小的基座模型，尚未完全釋放長思維鏈的潛力。

對于用戶的 Prompt，DeepSeek-R1-Lite-Preview 會有一個很長的推理過程。如上圖中的紅色實線所示，模型所能達到的準確率與所給定的推理長度呈正相關。且相比于傳統的多次采樣 + 投票（Majority Voting），模型思維鏈長度增加展現出了更高的效率。

最驚艷的是，發布即上線：所有用戶均可通過官網開啟與 DeepSeek-R1-Lite-Preview 的對話，但注意要先在輸入框中打開「深度思考」模式，每天限制 50 次使用。

體驗地址：http://chat.deepseek.com/

不得不說，對 o1 直接發起沖擊的 DeepSeek，著實讓國內 AI 社區振奮了一把：

圖源：https://www.zhihu.com/question/4689435060/answer/36575793425

由于 DeepSeek-R1-Lite-Preview 目前僅支持網頁使用，沒有發布完整代碼供獨立第三方分析或基準測試，也沒有通過 API 提供 DeepSeek-R1-Lite-Preview 以進行同類獨立測試，也沒有解釋 DeepSeek-R1-Lite-Preview 是如何訓練或構建的博客文章或技術論文，大家心中其實還有許多的「問號」。

但 DeepSeek 已經表示，正式版 DeepSeek-R1 模型會完全開源，還會公開技術報告，部署 API 服務。