成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署

發布于 2025-1-23 11:11
瀏覽
0收藏

Hi,這里是Aitrainee,歡迎閱讀本期新文章。

Deepseek R1正式發布。不是之前的Light版本,而是完整的R1。

性能與o1相當,還采用MIT開源協議,可以商用。現在能在Deepseek chat平臺用,也提供API。

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

模型分兩個版本:主力R1,和面向研究的R1-Zero。

R1-Zero沒有監督微調,直接RL,是一個未經過對話偏好對齊監督微調的版本,專門為研究人員或希望自行微調模型的人提供。

正式發布的R1還是用了SFT階段。

R1是671B參數的大模型,激活參數只有37B,基于Deepseek V3訓練。特別強化了思維鏈和推理能力。

現在Cline或者Roocline中可以直接使用R1了。API獲取:???https://platform.deepseek.com/usage??

在Roocline中這樣設置:

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

Roocline是什么?看這里:

??全新免費的 RooCline 超越了Cline v3.1 ?!更快、更智能、更出色的Cline分叉!(自主AI編程、0門檻)??

作為測試,我們用前面寫過一篇文章《??從0到1用AI做了個AI服務網站, 全程沒寫一行代碼??》,把開頭的那個三合一提示詞扔給他:

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

讓他創建一個Saas網站原型。那么提示詞比較長,可以通過上面這篇文章獲得。

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

挺不錯的,Saas框架、前后端、登陸注冊、生圖都還可以。

其次,這是它在Cline中速度、消耗表:

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

youtube@WorldofAI

Deepseek官網直接Chat使用:

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

此外,還有6個蒸餾小模型:Qwen 1.5B、7B,Llama 8B,Qwen 14B、32B,還有Llama 系列。

這些微調模型使用由DeepSeek-R1生成的樣本進行訓練,這大大降低了思考模型的構建門檻。

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

這個操作很暖心,讓不同需求的用戶都能用上,從筆記本到服務器,都能找到合適的版本。

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

測試結果超出預期,最強的是Llama-70B。GPQA Diamond 65.2,比Claude 3.5還高。編程上,LiveCodeBench 57.5,CodeForces 1633,幾乎能和o1-mini比肩。

Ollama已經可以部署了,很快也能用VLLM本地運行。

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區


R1價格很友好。API收費:輸入每百萬token 0.14美元(緩存命中),0.55美元(緩存未命中),輸出2.19美元。對比o1:輸入15美元,輸出60美元。

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

再說完全靠強化學習,不需要監督微調這一條:

用硬編碼規則計算獎勵,而非使用學習型的獎勵模型。學習型獎勵模型可能會被強化學習策略“利用”或“作弊”,導致優化的結果偏離預期目標。就像AlphaZero,從零開始學習,不靠模仿人類。

訓練過程中有意思的發現:模型的思考時間會自然增長,這不是預設的,是自發形成的。模型逐漸學會為復雜問題花費更多時間進行思考,體現出類似于“自我反思”和“探索行為”的能力。

這是高級智能行為的一種表現,表明模型具備了更深層次的推理能力。這種未被明確編碼的能力,屬于智能的“涌現特性”(emergent behavior)。

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

他們發明的GRPO比PPO更簡單:去掉critic網絡,用多個樣本的平均獎勵代替,簡化了內存使用。這個方法,是他們2024年2月才提出的。

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

DeepSeek-R1-Zero的測試結果很有意思。

只靠強化學習,在AIME 2024上得到71.0分,MATH-500達到95.9分。雖然比o1-0912略低,但差距并不大。

特別是在MATH-500上,R1-Zero的95.9分超過了o1-mini的90.0分。這說明純RL訓練的模型,也能掌握復雜的數學推理。

LiveCode Bench上得到73.3分,比o1-mini的60.0分高出不少。

這個結果很重要:它證明了,不需要大量標注數據,單靠強化學習,AI也能學會思考和推理。這可能會改變我們訓練AI的方式。

DeepSeek-R1 + RooCline:極佳的強化學習AI編碼代理!對標o1、蒸餾小模型本地部署-AI.x社區

R1,僅用幾個月就達到了閉源大廠的水平,還提供了更實惠的價格。

最后,據官方所述,DeepSeek-R1還有幾個地方需要提升,他們將繼續努力:

通用能力上,函數調用、多輪對話、角色扮演和JSON輸出,都不如V3版本。團隊打算用長鏈推理來改進。

語言處理有點意思。現在主要針對中英文優化,其他語言容易混雜。比如用德語問,它可能用英語想,再用德語答。

提示詞很敏感。少樣本提示反而會影響性能,建議直接描述問題和輸出格式,效果更好。

軟件工程任務上,評估太慢影響了RL訓練。計劃用拒絕采樣或異步評估來提速。

本文轉載自 ??AI進修生??,作者: Aitrainee

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久草网址 | 一区在线视频 | 国产亚洲一区二区三区 | 日韩精品欧美精品 | 欧美a在线 | 日韩午夜影院 | 视频一区二区在线观看 | 午夜免费看 | 精品中文字幕一区二区 | 一级一片在线观看 | 亚洲在线一区二区三区 | 一级做受毛片免费大片 | 欧美日韩网站 | 日韩免费视频 | 国产精品国产馆在线真实露脸 | 久久精品视频网站 | 激情五月婷婷综合 | 欧美日韩电影免费观看 | 国产东北一级毛片 | 二区三区在线观看 | 国产精品久久久久aaaa九色 | 国产观看 | 日本免费视频在线观看 | 97色在线视频 | 毛片a级| 欧美在线小视频 | 最新国产精品 | 精品国产一区二区三区性色 | 亚洲大片在线观看 | 国产精品18久久久久久白浆动漫 | 国产一区视频在线 | 亚洲美女av网站 | 在线亚洲精品 | 精品国产乱码久久久久久88av | 国产精品免费一区二区三区四区 | 国产精品免费av | 亚洲激情视频在线 | 亚洲精品一区二区三区丝袜 | 欧美黄 片免费观看 | 日韩av黄色 | 欧美中文一区 |