創(chuàng)造歷史!DeepSeek超越ChatGPT登頂中美AppStore
DeepSeek 20 日發(fā)布以來獲得的熱度至今依然沒有任何消退的跡象。一覺醒來,DeepSeek 發(fā)布的 iOS 應(yīng)用甚至超越了 ChatGPT 的官方應(yīng)用,直接登頂 AppStore。
不少網(wǎng)友都認(rèn)為這是他們當(dāng)之無愧。
畢竟,正如 a16z 合伙人、Mistral 董事會成員 Anjney Midha 說的那樣:從斯坦福到麻省理工,DeepSeek-R1 幾乎一夜之間就成了美國頂尖大學(xué)研究人員的首選模型。
甚至有網(wǎng)友認(rèn)為 DeepSeek 是 OpenAI 與英偉達(dá)都未曾預(yù)見的黑天鵝。
與此同時,圍繞 DeepSeek-R1 的各路消息也正層出不窮 ——Hugging Face 等組織正在嘗試復(fù)現(xiàn) R1、DeepSeek 之前接受的采訪被翻譯成了英文版并正在 AI 社區(qū)引發(fā)熱議、開發(fā)了 Llama 系列模型的 Meta 似乎陷入了焦慮之中…… 下面我們就來簡單盤點一下最近兩天圍繞 DeepSeek 的幾個熱點議題。
DeepSeek 創(chuàng)始人梁文鋒之前接受的采訪被翻譯成了英文版,正在 AI 社區(qū)引發(fā)熱議
AI 社區(qū)開啟 R1 復(fù)現(xiàn)熱潮
DeepSeek-R1 是開源的,但也沒有完全開源 —— 相關(guān)的訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本等并未被公布出來。不過,因為有技術(shù)報告,也就有了復(fù)現(xiàn) R1 的指導(dǎo)方針,也因此,最近有不少人都在強(qiáng)調(diào)復(fù)現(xiàn) R1 的重要性與可行性。
?? 博主 @Charbax 總結(jié)了 DeepSeek 文檔中沒有介紹的地方以及復(fù)現(xiàn) R1 的一些難點。
- 訓(xùn)練流程的細(xì)節(jié)。雖然其技術(shù)報告中介紹了強(qiáng)化學(xué)習(xí)階段和蒸餾,但省略了關(guān)鍵的實現(xiàn)細(xì)節(jié),包括超參數(shù)(例如,學(xué)習(xí)率、批量大小、獎勵縮放因子)、用于生成合成訓(xùn)練數(shù)據(jù)的數(shù)據(jù)管道(例如,如何編排 800K 蒸餾樣本)、需要人類偏好對齊的任務(wù)的獎勵模型架構(gòu)(多語言輸出的「語言一致性獎勵」)。
- 冷啟動數(shù)據(jù)生成。報告中雖然提到了創(chuàng)建「高質(zhì)量冷啟動數(shù)據(jù)」(例如,人工標(biāo)準(zhǔn)、少樣本提示)的過程,但缺乏具體的示例或數(shù)據(jù)集。
- 硬件和基礎(chǔ)設(shè)施。沒有關(guān)于計算資源(例如,GPU 集群、訓(xùn)練時間)或軟件堆棧優(yōu)化(例如,DeepSeek-V3 的 AMD ROCM 集成)的詳細(xì)信息。
- 復(fù)現(xiàn)難題。缺少多階段強(qiáng)化學(xué)習(xí)的腳本等組件。
當(dāng)然,也確實有些團(tuán)隊已經(jīng)開始行動了。
Open R1:復(fù)現(xiàn)一個真?開源版 R1
在復(fù)現(xiàn) R1 的各式項目中,最受人關(guān)注的當(dāng)屬 Hugging Face 的 Open R1 項目。
- 項目地址:https://github.com/huggingface/open-r1
Open R1 宣稱是 DeepSeek-R1 的「完全開放復(fù)現(xiàn)(A fully open reproduction)」,可以補(bǔ)齊 DeepSeek 沒有公開的技術(shù)細(xì)節(jié)。該項目目前還在進(jìn)行中,已經(jīng)完成的部分包括:
- GRPO 實現(xiàn)
- 訓(xùn)練與評估代碼
- 用于合成數(shù)據(jù)的生成器
Hugging Face CEO Clem Delangue 的推文
據(jù)其項目介紹,Open R1 項目計劃分三步實施:
第一步:復(fù)現(xiàn) R1-Distill 模型,具體做法是蒸餾一個來自 DeepSeek-R1 的高質(zhì)量語料庫。
第二步:復(fù)現(xiàn) DeepSeek 用于創(chuàng)建 R1-Zero 的純強(qiáng)化學(xué)習(xí)管線。這一步涉及到編排一個新的大規(guī)模數(shù)據(jù)集,其中包含數(shù)學(xué)、推理和代碼數(shù)據(jù)。
第三步:通過多階段訓(xùn)練從基礎(chǔ)模型得到強(qiáng)化學(xué)習(xí)微調(diào)版模型。
7B 模型 8K 樣本復(fù)現(xiàn) R1-Zero 和 R1
另一個復(fù)現(xiàn) R1 的團(tuán)隊是來自香港科技大學(xué)的何俊賢(Junxian He)團(tuán)隊,并且他們采用的基礎(chǔ)模型和樣本量都非常小:基于 7B 模型,僅使用 8K 樣本示例,但得到的結(jié)果卻「驚人地強(qiáng)勁」。
- 項目地址:https://github.com/hkust-nlp/simpleRL-reason
需要注意,該團(tuán)隊的這個實現(xiàn)的實驗大都是在 R1 發(fā)布之前完成的。他們發(fā)現(xiàn),僅使用 8K MATH 示例,7B 模型就能涌現(xiàn)出長思維鏈 (CoT)和自我反思能力,而且在復(fù)雜的數(shù)學(xué)推理上的表現(xiàn)也非常不錯。
具體來說,他們從基礎(chǔ)模型 Qwen2.5-Math-7B 開始,僅使用來自 MATH 數(shù)據(jù)集的 8K 樣本直接對其進(jìn)行強(qiáng)化學(xué)習(xí)。最終得到了 Qwen2.5-SimpleRL-Zero 與 Qwen2.5-SimpleRL。
或者按其博客的說法:「沒有獎勵模型,沒有 SFT,只有 8K 用于驗證的 Math 樣本,得到的模型在 AIME 上成績?yōu)椋╬ass@1 準(zhǔn)確率)33.3%、在 AMC 上實現(xiàn)了 62.5%、在 MATH 上實現(xiàn) 77.2%,優(yōu)于 Qwen2.5-math-7B-instruct,可與使用多 50 倍數(shù)據(jù)和更復(fù)雜組件的 PRIME 和 rStar-MATH 相媲美?!?/span>
Qwen2.5-SimpleRL-Zero 的訓(xùn)練動態(tài)
所得模型與基線模型的 pass@1 準(zhǔn)確度
基于 3B 模型用 30 美元復(fù)現(xiàn) R1
TinyZero 則是一個嘗試復(fù)現(xiàn) DeepSeek-R1-Zero 的項目,據(jù)其作者、伯克利 AI 研究所在讀博士潘家怡(Jiayi Pan)介紹,該項目是基于 CountDown 游戲?qū)崿F(xiàn)的,完整配方有一句話就能說完:「遵照 DeepSeek R1-Zero 的算法 —— 一個基礎(chǔ)語言模型、提示詞和 ground-truth 獎勵,然后運行強(qiáng)化學(xué)習(xí)?!?/span>
實驗過程中,模型一開始的輸出很蠢笨,但逐漸發(fā)展出修改和搜索等策略。下面展示了一個示例,可以看到模型提出解決方案,自我驗證,并反復(fù)修改,直到成功。
實驗中,該團(tuán)隊也得到了一些有意思的發(fā)現(xiàn):
基礎(chǔ)模型的質(zhì)量很重要。0.5B 的小模型在猜測一個解答之后就會停止,而從 1.5B 規(guī)模開始,模型會開始學(xué)習(xí)搜索、自我驗證、修正解答,從而可以得到遠(yuǎn)遠(yuǎn)更高的分?jǐn)?shù)。
基礎(chǔ)模型和指令模型都可行。實驗發(fā)現(xiàn),指令模型的學(xué)習(xí)速度更快,但性能會收斂到與基礎(chǔ)模型同等的程度;同時指令模型的輸出更加結(jié)構(gòu)化、更可讀。
具體采用什么強(qiáng)化學(xué)習(xí)算法并不重要。該團(tuán)隊嘗試了 PPO、GRPO 和 PRIME,但它們的差異并不大。
模型的推理行為嚴(yán)重取決于具體任務(wù)。對于 CountDown 游戲,模型會學(xué)習(xí)執(zhí)行搜索和自我驗證;對于數(shù)值乘法,模型會學(xué)習(xí)使用分配律分解問題并逐步解決。
模型學(xué)會乘法分配律
而最驚人的是,整個項目的計算成本不到 30 美元。
Meta 的焦慮:下一代 Llama 可能趕不上 R1
數(shù)天前,機(jī)器之心報道文章《Meta 陷入恐慌?內(nèi)部爆料:在瘋狂分析復(fù)制 DeepSeek,高預(yù)算難以解釋》引起廣泛關(guān)注與討論。
文章中, Meta 員工在美國匿名職場社區(qū) teamblind 上面發(fā)布了一個帖子提到,國內(nèi) AI 創(chuàng)業(yè)公司 DeepSeek 最近的一系列動作讓 Meta 的生成式 AI 團(tuán)隊陷入了恐慌。
今日,The Information 最新的文章爆料出更多內(nèi)容。
在文章中,The Information 爆料稱包括 Meta 人工智能基礎(chǔ)設(shè)施總監(jiān) Mathew Oldham 在內(nèi)的領(lǐng)導(dǎo)表示,他們擔(dān)心 Meta Llama 的下一個版本性能不會像 DeepSeek 的那樣好。
Meta 也暗示 Llama 的下一個版本將于本季度發(fā)布。
此外,文章也爆料,Meta 生成式 AI 小組和基礎(chǔ)設(shè)施團(tuán)隊組織了四個作戰(zhàn)室來學(xué)習(xí) DeepSeek 的工作原理。
其中兩個作戰(zhàn)室,正在試圖了解幻方是如何降低訓(xùn)練和運行 DeepSeek 模型的成本。其中一名員工表示:Meta 希望將這些技術(shù)應(yīng)用于 Llama。
其中一些開發(fā)人員透露,盡管 Meta 的模型是免費的,但它們的運行成本通常比 OpenAI 的模型更高,部分原因是 OpenAI 可以通過批量處理其模型客戶的數(shù)百萬條查詢來降低價格。但是,使用 Llama 的小型開發(fā)人員卻沒有足夠的查詢來降低成本。
據(jù)一位直接了解情況的員工透露,第三個作戰(zhàn)室正在試圖弄清楚幻方可能使用哪些數(shù)據(jù)來訓(xùn)練其模型。
第四作戰(zhàn)室正在考慮基于 DeepSeek 模型的新技術(shù),重構(gòu) Meta 模型。Meta 考慮推出一個與 DeepSeek 相似的 Llama 版本,它將包含多個 AI 模型,每個模型處理不同的任務(wù)。這樣,當(dāng)客戶要求 Llama 處理某項任務(wù)時,只需要模型的某些部分進(jìn)行處理。這樣做可以使整個模型運行得更快,并且以更少的算力來運行。
不知道,在這樣的壓力下,2025 年 Meta 會拿出什么樣的開源模型?說不定,Meta 也會加入到復(fù)現(xiàn) R1 的浪潮中。
不過可以預(yù)料的是,在 DeepSeek 這條鯰魚的攪動下,新一年的大模型格局正在發(fā)生轉(zhuǎn)變。
對新一年的 AI 技術(shù)發(fā)展與應(yīng)用,你有什么樣的期待?歡迎留言討論。