成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

推理性能直逼o1,DeepSeek再次出手,重點:即將開源

人工智能 新聞
DeepSeek 上線了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接沖擊 OpenAI o1 保持了兩個多月的大模型霸主地位。

DeepSeek 又出手了,這次又是重磅炸彈。

昨晚,DeepSeek 上線了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接沖擊 OpenAI o1 保持了兩個多月的大模型霸主地位。

在美國數學競賽(AMC)中難度等級最高的 AIME 以及全球頂級編程競賽(codeforces)等權威評測中,DeepSeek-R1-Lite-Preview 模型已經大幅超越了 GPT-4o 等頂尖模型,有三項成績還領先于 OpenAI o1-preview。

圖片

背后的秘訣,就是「深度思考」。

更多的強化學習、原生的思維鏈、更長的推理時間,能讓大模型的性能更強,這在領域內已經是廣泛共識。這種模式其實非常像人類大腦的深度思考。

與 OpenAI o1 有點不一樣的是,DeepSeek-R1-Lite-Preview 會在回復中展示「思路鏈」推理,也就是響應查詢和輸入的不同鏈或「思路」,并解釋它在做什么以及為什么這樣做。

就像是解題時,有人喜歡將每一步驟都詳盡地寫在卷子上,而 DeepSeek-R1-Lite-Preview 更進一步:把內心 OS 也都寫出來了。

DeepSeek 官方表示,DeepSeek R1 系列模型使用強化學習訓練,推理過程包含大量反思和驗證,思維鏈長度可達數萬字。已經發布的 DeepSeek-R1-Lite-Preview 使用的是一個較小的基座模型,尚未完全釋放長思維鏈的潛力。

圖片

對于用戶的 Prompt,DeepSeek-R1-Lite-Preview 會有一個很長的推理過程。如上圖中的紅色實線所示,模型所能達到的準確率與所給定的推理長度呈正相關。且相比于傳統的多次采樣 + 投票(Majority Voting),模型思維鏈長度增加展現出了更高的效率。

最驚艷的是,發布即上線:所有用戶均可通過官網開啟與 DeepSeek-R1-Lite-Preview 的對話,但注意要先在輸入框中打開「深度思考」模式,每天限制 50 次使用。

圖片

體驗地址:http://chat.deepseek.com/

不得不說,對 o1 直接發起沖擊的 DeepSeek,著實讓國內 AI 社區振奮了一把:

圖片

圖源:https://www.zhihu.com/question/4689435060/answer/36575793425

由于 DeepSeek-R1-Lite-Preview 目前僅支持網頁使用,沒有發布完整代碼供獨立第三方分析或基準測試,也沒有通過 API 提供 DeepSeek-R1-Lite-Preview 以進行同類獨立測試,也沒有解釋 DeepSeek-R1-Lite-Preview 是如何訓練或構建的博客文章或技術論文,大家心中其實還有許多的「問號」。

但 DeepSeek 已經表示,正式版 DeepSeek-R1 模型會完全開源,還會公開技術報告,部署 API 服務。

圖片

圖源:https://www.zhihu.com/question/4689435060/answer/36604051127

回想起上一次,DeepSeek-V2 的開源和 API 降價,直接引發了國產大模型廠商的降價浪潮。同樣的力度再來一波,不知道大家如何頂住。

耐心等待的時間里,我們先來實測一下。

一手實測體驗

與 OpenAI o1 相同的是,根據問題的復雜程度,它也需要「思考」數十秒后再回答。

雖然有些過程中的思路在人類看來可能毫無意義,甚至是錯誤的,但據初步測評,DeepSeek-R1-Lite-Preview 回復的最終整體準確率還是比較高的。

比如它可以回答 GPT-4o 和 Claude 系列都翻車過的問題 —— 經典陷阱題「Strawberry 這個詞中有多少個字母 R?」和「9.11 和 9.9 哪個更大?」。

有用戶在 DeepSeek Chat 上使用這些 Prompt 進行測試,回復結果和思考用時情況如下:

圖片

Strawberry 這個詞中有多少個字母 R?用時 29 秒。

圖片

9.11 和 9.9 哪個更大?用時 9 秒。

不過在數草莓的問題上,R1-Lite-Preview 有時也會困惑,數出「只有 2 個 r」的答案:

圖片

機器之心也實測了一把,似乎對于中文,R1-Lite-Preview 的準確率更高:

圖片

對于需要動腦的問題,R1-Lite-Preview 的表現也可圈可點,比如它可以破解行測題的邏輯陷阱:

圖片

圖片

由 LeCun 提出的物理題:圓周上均勻分布了 7 根軸,每根軸上都有一個齒輪。每個齒輪都與其左邊和右邊的齒輪嚙合。齒輪從 1 到 7 編號,依次沿圓周排列。問題是:如果齒輪 3 順時針旋轉,問齒輪 7 會沿什么方向旋轉?

圖片

得出解來十分絲滑:

圖片

接下來,給 R1-Lite-Preview 上點強度,看看它能否笑對大學物理的噩夢:《電磁學千題解》。

圖片

在 34 秒內,它根據題意列出了對應的公式,得到了正確答案:

圖片

至于 R1-Lite-Preview 被全球頂級編程競賽(codeforces)等權威評測檢驗過的代碼能力,讓它手撕大廠秋招級別的 Leetcode 經典題「島嶼問題」試一下:

圖片

圖片

運行起來也沒大問題。

然而,相比推理、物理和編程,R1-Lite-Preview 的數學能力可能沒那么讓人放心。

比如科技博主 @Transformer - 周問了一道中學水平的數列題,只有 o1 和 o1mini 做對了,R1-Lite-Preview 沒想出關鍵的破題思路,而是「蒙」出了答案。

圖片

而對于最能考驗人類大腦的深度思考能力的 IMO 國際數學奧林匹克競賽試題,R1-Lite-Preview 的表現是這樣的:

圖片

這道代數題相當難,全球僅有 5 個人全對。在長達 162 秒的思考過程中,R1-Lite-Preview 洋洋灑灑地把解題思路寫成了一篇小論文,可能它的老師也教過 —— 把解題過程寫上能得一半分。

圖片

圖片

令人遺憾的是,最終答案 c=1 是錯的,正確答案如下:

圖片

而另一位「解題過程沒寫全」的選手 OpenAI o1 卻給出了正確答案:

圖片

這說明,DeepSeek-R1-Lite-Preview 仍有進步空間,也更讓我們期待完整版模型的發布了。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-27 12:23:46

2025-03-19 10:10:43

2021-09-17 12:54:05

AI 數據人工智能

2024-08-16 14:15:00

AI訓練

2024-09-24 11:01:03

2025-01-23 14:53:15

2025-02-03 14:17:27

2024-12-09 13:40:26

2024-11-07 15:40:00

2025-04-21 09:07:00

2023-11-30 18:25:57

數據訓練

2025-04-07 09:00:00

數據測試工具

2024-12-02 12:37:42

2025-03-10 08:10:00

AI研究安全

2024-01-08 13:33:00

數據訓練

2024-10-17 14:05:34

2025-02-08 14:03:25

2025-03-05 08:40:00

2024-11-25 17:23:10

2024-09-29 13:07:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久亚洲国产精品日日av夜夜 | 丁香六月伊人 | 一色一黄视频 | 午夜伊人 | 久久久久久久久久一区 | 亚洲精品成人av久久 | 91视频入口 | 国产高清性xxxxxxxx | 欧美不卡视频 | 99亚洲精品视频 | 黄色在线免费观看视频 | 免费在线看黄视频 | avtt国产| 国产精品免费一区二区 | 一级毛片大全免费播放 | 欧美久久精品一级黑人c片 91免费在线视频 | 欧美日韩在线免费 | 亚洲精品久久久一区二区三区 | 欧美一级黄带 | 日韩在线观看视频一区 | 日本成人中文字幕 | 亚洲久久一区 | 日韩精品在线一区 | 国产精品美女久久久 | 色片在线观看 | 亚洲精品一区二区网址 | 免费一区二区 | 中文字幕成人av | 亚洲天堂成人在线视频 | 国产欧美精品一区二区 | 亚洲精品欧洲 | 国产又色又爽又黄又免费 | 日韩久久久久 | 国产在线高清 | 欧美电影免费网站 | 日韩电影在线 | 一级黄色录像毛片 | 91中文在线观看 | 一区二区三区在线电影 | 一区二区三区在线免费观看 | av大片|