成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<bdo id="qkkua"><source id="qkkua"></source></bdo>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

不到140塊！李飛飛團隊超低成本復刻DeepSeek R1推理！16張H100只訓練了26分鐘，與R1訓練方法不同！原創

發布于 2025-2-6 18:36

瀏覽

0收藏

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

太魔鬼了！上周李飛飛團隊發了篇新論文，再次降低了復刻o1能力的成本。

低到什么程度呢？論文里說，在現成的預訓練模型（用的是阿里系開源的Qwen2.5- 32B-Instruct）進行監督微調（SFT），使用構建的小規模數據集，僅耗時26分鐘，就在16張 H100 GPU上完成訓練。

據研究人員介紹，這樣的算力租賃成本大約在20美元左右！

不到140塊！李飛飛團隊超低成本復刻DeepSeek R1推理！16張H100只訓練了26分鐘，與R1訓練方法不同！-AI.x社區圖片

這么省時省錢的模型，居然和o1預覽版性能掰手腕：實驗結果顯示，在數學競賽類問題上，s1-32B的表現超過o1-preview多達27%（MATH 和 AIME24 數據集）。

李飛飛團隊的訓練成果已經開源了：https: //github.com/simplescaling/s1.

此外，研究團隊還發現了一種技巧，被稱為預算控制（budget forcing）策略，即調整測試時計算資源。這個方法的具體做法是強制終止模型的推理過程，或在模型嘗試結束生成時多次附加“Wait”，從而延長其思考時間。這一方法能促使模型自我檢查答案，往往可以糾正錯誤的推理步驟。

論文中用了經典的數R問題做例子，在模型差點要得出錯誤答案“2”時。研究人員打斷了AI的思考，并在其生成內容后追加“Wait”，從而促使 s1-32B 自我修正了答案。像極了家長檢查作業的樣子。

不到140塊！李飛飛團隊超低成本復刻DeepSeek R1推理！16張H100只訓練了26分鐘，與R1訓練方法不同！-AI.x社區圖片

1.蒸餾：站在大模型巨人的肩膀上

李飛飛團隊的s1可以說是Qwen2.5和Gemini 2.0 Flash Thinking Experimental的孩子。（在谷歌今天更新的Gemini 2.0全家桶中，Gemini 2.0 Flash的推理能力已經正式上線，摘掉了“Experimental”的帽子，并擴展到谷歌地圖、搜索等應用中。）

阿里旗下通義千問（Qwen）的開源小模型，提供了s1的基座。而Gemini 2.0 Flash則是s1在推理方面的“老師”。

研究人員通過精心篩選的1000個問題及其答案，記錄了Gemini 2.0 Flash Thinking Experimental的“思考過程”數據，構建了訓練集。然后使用這一數據集對Qwen2.5- 32B-Instruct進行了微調。

有意思的是，這事也違反了谷歌的條款。Gemini的使用條款禁止用戶對其模型進行逆向工程，以開發與Google AI產品競爭的服務。對此，Google尚未發表評論。

2.監督微調，比R1的“大規模強化學習”更省錢

在論文中，研究人員提到s1希望找到實現強推理能力和“測試時擴展”（即讓AI在回答問題前思考更久）的最簡單方法。

OpenAI的o1模型在推理方面的突破，引發了DeepSeek等AI實驗室嘗試通過不同技術加以復現。

論文指出，推理模型可以通過“監督微調”（SFT）蒸餾而成，這種方法讓AI模型明確模仿數據集中某些行為。SFT的成本通常低于DeepSeek用于訓練其R1模型的“大規模強化學習”方法。

因為SFT 使用了高質量的標注數據，例如，論文中提到的 s1K 數據集，僅包含 1,000 個樣本，但這些樣本是經過精心篩選的，具有高難度、多樣性和質量。

而純RL 方法通常需要大量的交互數據，例如，DeepSeek R1 使用了數百萬個樣本進行訓練，這些樣本的生成需要大量的計算資源和時間。

此外，相對于DeepSeek V3作為R1的底座，s1使用了更小的模型做微調。研究人員所采用的 Qwen2.5-32B-Instruct 模型進行 SFT，僅需調整少量的超參數即可獲得較好的性能。由于初始的預訓練模型復雜度較低，能更好地在有限的計算資源下進行訓練和部署。

3.寫在最后

李飛飛團隊的復刻再次給人帶來億些震撼。

半個小時，20美元的投入，就能比肩OpenAI等美AI公司數百萬美元所完成的成果。

學界的研究人員無需投入百萬美元資金也能在AI領域取得創新突破，這無疑令人興奮。但是，推理模型的“商品化”還有未來嗎？

如果有人能用少量資金復制一個價值數百萬美元的AI模型，企業的護城河還能在哪里？

但是，蒸餾只是一種廉價復現AI能力的有效方法，并不能創造出遠超當前水平的全新AI模型。因此，我們可能仍然需要志向遠大的夢想家，需要AI中的巨人。

參考鏈接：https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

本文轉載自??51CTO技術棧??，作者：伊風

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2025-2-6 18:37:31修改

贊

收藏

回復

舉報

回復

相關推薦

基于 DeepSeek R1 和 Ollama 開發 RAG 系統

玄姐聊AGI ? 4035瀏覽 ? 0回復
OpenAI o3-mini 干翻了 DeepSeek R1？

PyTorch研習社 ? 2324瀏覽 ? 0回復
部署滿血DeepSeek R1的避坑指南-vLLM 0.7.1

NLP工作站 ? 7437瀏覽 ? 0回復
如何運用DeepSeek R1構建一款全棧簡歷篩選應用

51CTO內容精選 ? 3364瀏覽 ? 0回復
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓練技術對比大解密！

51CTO技術棧 ? 6113瀏覽 ? 0回復
外國專家解讀DeepSeek：預算有限，如何復制R1推理模型？純強化學習不現實！

51CTO技術棧 ? 1912瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4825瀏覽 ? 0回復
綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關鍵結論

amei2000go ? 2629瀏覽 ? 0回復
DeepSeek R1與Qwen大模型，構建Agentic RAG全攻略

小虎哦哦 ? 6398瀏覽 ? 0回復
DeepSeek又開源R1部署最佳實踐！

探索AGI ? 2240瀏覽 ? 0回復
這個開源項目厲害了：一鍵部署DeepSeek R1！

NLP前沿1 ? 3547瀏覽 ? 0回復
大模型對決：DeepSeek R1與o3-mini

丟翅膀的魚 ? 2558瀏覽 ? 0回復
從推理到編程，詳細比較DeepSeek 32B、70B、R1實踐性能

小虎哦哦 ? 1.2w瀏覽 ? 0回復
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 9097瀏覽 ? 0回復
白嫖資源訓練 DeepSeek R1 推理模型

AIGC前沿技術追蹤 ? 3904瀏覽 ? 0回復
白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

后向傳播 ? 3816瀏覽 ? 0回復
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關鍵技術

amei2000go ? 5708瀏覽 ? 0回復
后 DeepSeek R1 時代：從資本壁壘到技術普惠

Baihai_IDP ? 2162瀏覽 ? 0回復
DeepSeek R1 & R2 技術原理

ceesoft ? 3722瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

Devin聯合創始人：別搞多智能體系統！微軟和OpenAI鼓吹的代理構建理念大錯特錯！ 1回復

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

上一篇： ?對標DeepSeek，Gemini 2.0輕量模型開卷“極致性價比”！谷歌守住多模態陣地應用們都要開始做推理了！

下一篇：怕被對手蒸餾，OpenAI只敢公開“閹割版”思維鏈！網友失望：錯誤的摘要還不如沒有！

社區精華內容

目錄

主站蜘蛛池模板：日韩精品福利 | 亚洲成人午夜电影 | 在线亚洲精品 | 日日干夜夜草 | 精品欧美一区二区精品久久久 | 日本精品视频一区二区三区四区 | 精品久久免费 | 亚洲在线中文字幕 | 欧美成人一区二区三区片免费 | 日韩欧美大片 | 少妇一级淫片免费播放 | 国产精品一区在线观看你懂的 | 二区在线视频 | 日韩二区 | 久久国| 精品国产18久久久久久二百 | 日韩精品一区二区久久 | 91精品久久久久久久久中文字幕 | 成人免费视频网站在线观看 | 天天爽夜夜爽精品视频婷婷 | 色爱综合网 | 中文字幕日韩欧美一区二区三区 | 日韩欧美国产一区二区三区 | 天天久久| 亚洲黄色网址视频 | 亚洲成人一级 | 97人人澡人人爽91综合色 | 国产日产精品一区二区三区四区 | 成人伊人| 中文字幕亚洲一区 | 欧美日韩精品久久久免费观看 | 精品自拍视频在线观看 | 日韩欧美一区二区三区免费观看 | 国产一区二区三区视频免费观看 | 精品久久久久久久人人人人传媒 | 久久久精品在线 | 久久国产成人午夜av影院武则天 | 日韩在线免费视频 | 亚洲精品国产一区 | 激情五月综合 | 欧美性video|

<abbr id="q24e4"><source id="q24e4"></source></abbr>

<table id="q24e4"></table>

<li id="q24e4"></li>

<button id="q24e4"><input id="q24e4"></input></button>

<code id="q24e4"></code>