歷史分水嶺:DeepSeek GitHub星數超越OpenAI!大佬揭秘僅用450美元訓推理模型
就在剛剛,歷史性的一刻出現了。
DeepSeek項目在GitHub平臺上的Star數,已經超越了OpenAI。
熱度最高的DeepSeek-V3,Star數如今已達7.7萬。
做出這一發現的網友們,第一時間截下了圖
可以說,這是開源AI歷史上的一個里程碑!
而DeepSeek-R1,更是僅用了3周時間,就超越了「openai-cookbook」。
前有App Store登頂,今有GitHub超越,網友們高呼:永遠不要低估開源社區的力量!
如今,DeepSeek的勢頭越來越猛。
相信大家都發現,DeepSeek的服務器簡直要爆了。
甚至就在昨天,DeepSeek還不得不官宣:暫停API充值。
原因當然就是因為,用戶的熱情實在太火爆,服務器真扛不住了。
最近,關于DeepSeek的一些流傳甚廣的說法,也紛紛有專家辟謠了。
澄清一:DeepSeek繞過了CUDA架構
其中一個廣為流傳的說法是DeepSeek繞過了CUDA。
這源于DeepSeek的論文中提到,模型采用了PTX編程,通過這樣的定制優化,讓模型能更好地釋放底層硬件的性能。
「我們采用定制的PTX(并行線程執行)指令并自動調整通信塊大小,這大大減少了L2緩存的使用和對其他SM的干擾」
嚴謹來說,DeepSeek通過編寫PTX解決了跨芯片通信瓶頸,雖然復雜,但降低了開銷、提升了效率。
本質上,PTX仍然是位于CUDA驅動層內部的一個組件,是英偉達CUDA編程模型的一部分,能將CUDA源代碼(C/C++)轉變為機器指令的一個中間階段。
在運行時,PTX會進一步被編譯成在GPU上運行的最終機器碼(SASS)。
而DeepSeek團隊的聰明之處就在于,用這種方法能更好地實現對底層硬件的編程和調用。
這種主動優化,無論在H800還是H100上都能提高通信互聯效率。
因此,DeepSeek仍然沒有擺脫CUDA生態。
澄清二:R1的訓練成本,絕不僅僅是600萬美元!
而關于DeepSeek-R1的另一個謠言,就是R1的訓練成本大約是600萬美元。
之所以有這個說法,來源于DeepSeek-V3論文中的相關論述
開發者大神Sebastian指出,很多人都混淆了DeepSeek-V3和DeepSeek-R1。(前者要早1個月)
其中,DeepSeek-V3中宣稱的550萬美元,是基于GPU成本、GPU小時數、數據集規模和模型規模等估算出來的。
但DeepSeek團隊從沒公開過R1確切的GPU小時數或開發成本,目前已有的任何成本估算都只是猜測。
除此之外,Stability AI前研究總監Tanishq Mathew Abraham也在最近的博文中指出,R1在V3基礎上進行的強化學習,以及最終訓練前團隊的大量的小規模實驗和消融研究都未包含在內。
更何況還有研究者的薪資,據傳已經跟OpenAI、Anthropic等頂級機構的薪資相當(高達100萬美元)。
V3和R1,開啟推理模型大變局
DeepSeek V3和R1發布后,將怎樣攪動此后的LLM江湖?
預算緊張的情況下,怎么開發推理模型?
最近,機器學習大神Sebastian Raschka的這篇長篇博文,為我們做出了硬核預測,并且破除了不少民間對DeepSeek的誤解。
Sebastian表示,很多人都來詢問自己對DeepSeek-R1的看法。
在他看來,這是一項了不起的成就。
作為一名研究工程師,他非常欣賞那份詳細的研究報告,它讓自己對方法論有了更深入的了解。
最令人著迷的收獲之一,就是推理如何從純強化學習行為中產生。
甚至,DeepSeek是在MIT許可下開源模型的,比Meta的Llama模型限制更少,令人印象深刻。
在本文中,Sebastian介紹了構建推理模型的四種方法,來提升LLM的推理能力。
圖中總結了DeepSeek R1的訓練流程。
(1)DeepSeek-R1-Zero:該模型基于2024年12月發布的DeepSeek-V3。研究團隊采用RL進行訓練,并使用了兩種獎勵類型。這種方式稱為冷啟動訓練,因為它沒有采用RLHF中的SFT步驟。
(2)DeepSeek-R1:這是DeepSeek的旗艦推理模型,構建于DeepSeek-R1-Zero基礎上。團隊通過額外的SFT階段和進一步的RL訓練,對模型進行了優化。
(3)DeepSeek-R1-Distill:利用前述步驟中生成的SFT數據,團隊對Qwen和Llama模型進行了微調,以增強它們的推理能力。盡管不是傳統意義上的蒸餾,但該過程是用DeepSeek-R1的輸出,來訓練較小的模型(Llama 8B和70B,Qwen 1.5B–30B)。
構建推理模型的四種方法
推理時擴展
想要提升LLM的推理能力,或者是其他任何能力,有一種方法叫推理時擴展,就是在推理過程中增加計算資源,讓輸出的結果質量更高。
人類在解決復雜問題時,如果思考時間更充裕,往往能給出更好的答案。
有一種推理時擴展的簡單方法,是巧妙的運用提示工程。思維鏈(CoT)提示法是一個經典例子,在處理復雜問題時,通常能得到更準確的結果。
另一種推理時擴展的方法是使用投票和搜索策略。
一個簡單的例子是多數投票方法,讓LLM生成多個答案,然后通過投票選出正確答案。
同樣,也可以使用束搜索(beam search)和其他搜索算法來生成更好的響應。
推測OpenAI的o1和o3模型使用了推理時擴展。此外,o1和o3可能還運用了與DeepSeek R1類似的RL流程來訓練。
純強化學習(RL)
DeepSeek R1論文中的一個亮點是,推理行為可以通過純強化學習(RL)產生。
通常在RL訓練之前,會先進行SFT,但DeepSeek-R1-Zero完全通過RL訓練,沒有初始的SFT階段。
DeepSeek-R1-Zero的一個關鍵區別是它跳過了SFT階段。
在獎勵機制上,DeepSeek沒有采用基于人類偏好的獎勵模型,而是采用了準確性獎勵和格式獎勵。
- 準確性獎勵,是用LeetCode編譯器來驗證編程答案,并用確定性系統評估數學回答。
- 格式獎勵,則靠LLM評判器,保證回答符合預期格式,比如把推理步驟放在標簽里。
讓人意外的是,靠這種方法,LLM就能發展出基本的推理能力。
研究人員觀察到「頓悟時刻」:模型開始在回答中生成推理過程,即使沒有專門訓練它這么做。
盡管R1-Zero并不是性能最優的推理模型,但它通過生成中間的思考步驟展示了推理能力。這證明用純強化學習(RL)開發推理模型是可行的。
監督微調和強化學習(SFT+RL)
旗艦模型DeepSeek-R1通過結合額外的SFT和RL,提升了模型的推理表現。
在RL之前進行SFT是常見的做法,標準的RLHF流程就是如此。OpenAI的o1模型很可能也是用類似方法開發的。
如圖所示,團隊用DeepSeek-R1-Zero生成了冷啟動SFT數據。通過指令微調訓練模型,接著又進行了一輪RL。
在這一輪RL中,保留了DeepSeek-R1-Zero的準確性獎勵和格式獎勵,還新增了一致性獎勵,來避免語言混雜。
RL結束后,又開始新一輪SFT數據收集。在這個階段,用最新的模型生成了60萬條CoT SFT示例,同時用DeepSeek-V3基礎模型創建了另外20萬條SFT示例。
上述樣本隨后被用于另一輪RL訓練。在這個階段,對于數學和編程問題,還是用基于規則的方法進行準確性獎勵。對于其他類型的問題,則用人類偏好標簽來評判。
經過多輪訓練,DeepSeek-R1的性能有了顯著提升。
純監督微調(SFT)和蒸餾
到目前為止,已經介紹了三種用于改進LLM推理能力的方法,最后是模型「蒸餾」。
這里「蒸餾」是指用較大LLM生成的數據集對較小的LLM(如Llama 8B和70B以及Qwen 2.5模型,范圍從0.5B到32B)進行指令微調。
實際上,這個蒸餾過程中的SFT數據集,和之前用來訓練DeepSeek-R1的數據集是一樣的。
為什么開發蒸餾模型?可能有兩個關鍵原因:
1 較小的模型更高效。小模型運行成本更低,還能在配置較低的硬件上運行。對研究人員來說很有吸引力。
2 純SFT的案例研究。這些模型展示了在沒有RL的情況下,單純靠SFT能把模型優化到什么程度。
團隊將DeepSeek-R1-Zero中的純RL方法直接應用于Qwen-32B。
結果表明,對于較小的模型,蒸餾遠比純RL更有效。
僅靠RL可能不足以讓小模型具備強大的推理能力,在高質量推理數據上進行SFT,或許是對小模型更有效的策略。
接下來一個有趣的方向是把RL+SFT和推理時擴展結合起來,OpenAI的o1很有可能是這樣做的,只不過它可能基于一個比DeepSeek-R1更弱的基礎模型。
R1和o1相比如何?
Sebastian認為,DeepSeek-R1和OpenAI o1大致在同一水平。
不過引人注目的一點是,DeepSeek-R1在推理時間上更高效。
這就揭示了二者的區別:DeepSeek可能在訓練過程中投入了更多,而OpenAI更依賴于o1的推理時擴展。
而很難直接比較兩個模型的難點,就在于OpenAI并沒有披露太多關于o1的信息。
現在關于o1,還有很多未解之謎。
比如,o1也是一個MoE嗎?它究竟有多大?
或許,o1只是GPT-4o的一個略微改進版本,加上最小量的強化學習和微調,僅在推理時進行大規模scaling?
不了解這些細節,是很難直接比較的。
預算只有幾十萬美元,能開發推理模型嗎
不過,想開發一個DeepSeek-R1這樣的推理模型,哪怕是基于開放權重的基礎模型,也可能需要幾十萬美元甚至更多資金。
這對預算有限的研究人員或工程師來說,實在是望而卻步。
好消息是:蒸餾能開辟新路徑!
模型蒸餾提供了一個更具成本效益的替代方案。
DeepSeek團隊的R1蒸餾模型證明了這一點,盡管這些模型比DeepSeek-R1小得多,推理表現卻強得驚人。
不過,這種方法也不是完全沒有成本。他們的蒸餾過程用了80萬條SFT樣本,這需要大量的計算資源。
有趣的是,就在DeepSeek-R1發布的前幾天,關于Sky-T1的文章中,一個團隊用1.7萬條SFT樣本,就訓練出了一個32B參數的開放權重模型。
總成本僅有450美元,甚至比大多數人AI會議的注冊費還低。
Sky-T1的表現和o1大致相當,考慮到它的訓練成本,著實令人驚嘆。
項目鏈接:https://novasky-ai.github.io/posts/sky-t1/
預算有限的純強化學習:TinyZero
TinyZero是3B參數的模型,它借鑒了DeepSeek-R1-Zero的方法,其訓練成本不到30美元。
令人意外的是,盡管只有3B參數,TinyZero仍展現出一些突現的自我驗證能力,這證明了小模型通過純RL也能產生推理能力。
這兩個項目表明,即使預算有限,也可以進行有趣的推理模型研究。
兩者都借鑒了DeepSeek-R1的方法,一種聚焦于純RL(TinyZero),另一種聚焦于純SFT(Sky-T1)。
超越傳統SFT:旅程學習
旅程學習被視作捷徑學習的替代方案。捷徑學習是傳統的指令微調方法,模型僅通過正確的解題路徑來訓練。
旅程學習不僅包括正確的解題路徑,還包括錯誤的解題路徑,讓模型從錯誤中學習。
這種方法和TinyZero在純RL訓練中展現的自我驗證能力有相通之處,不過它完全依靠SFT來優化模型。讓模型接觸錯誤推理路徑及修正過程。
旅程學習或許有助于加強自我糾錯能力,提升推理模型的可靠性。
論文鏈接:https://arxiv.org/abs/2410.18982
這一方向對于未來的研究極具吸引力,特別是在低預算的推理模型開發場景中,RL方法可能由于計算成本過高而難以落地。
當前在推理模型領域正有諸多有趣的研究,Sebastian充滿期待地表示:相信在未來幾個月,還會看到更多令人興奮的成果!