成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

直逼DeepSeek-R1-32B,碾壓李飛飛s1!UC伯克利等開源全新SOTA推理模型

人工智能 新聞
近日,斯坦福、UC伯克利等多機構聯手發布了開源推理新SOTA——OpenThinker-32B,性能直逼DeepSeek-R1-32B。其成功秘訣在于數據規模化、嚴格驗證和模型擴展。

32B推理模型,僅用1/8數據,與同尺寸DeepSeek-R1打成平手!

就在剛剛,來自斯坦福、UC伯克利、華盛頓大學等機構聯手發布了一款SOTA級推理模型——OpenThinker-32B,并同時開源了高達114k的訓練數據。

項目主頁:https://www.open-thoughts.ai/blog/scale

Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32B

數據集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

團隊發現:采用經DeepSeek-R1驗證標注(基于R1蒸餾)的大規模優質數據集,便可訓練出SOTA的推理模型。

具體方法,就是通過數據規模化、推理過程驗證以及模型規模擴展。

由此得到的OpenThinker-32B,在數學、代碼和科學等多個基準測試中,OpenThinker-32B性能直接碾壓了李飛飛團隊s1和s1.1模型,直逼R1-Distill-32B。

值得一提的是,相比于使用了800k數據(包含600k個推理樣本)的R1-Distill,OpenThinker-32B僅用了114k數據,就能拿下幾乎同等的優異成績。

結果均通過開源評估框架Evalchemy計算得出

除此之外,OpenThinker-32還把模型權重、數據集、數據生成代碼、訓練代碼上,全部都給公開了!

數據策展

研究人員使用了與之前訓練OpenThinker-7B模型相同的OpenThoughts-114k數據集來訓練OpenThinker-32B。

他們利用DeepSeek-R1模型,收集了精心挑選的17.3萬個問題的推理過程和解答嘗試。然后將這些原始數據作為OpenThoughts-Unverfied-173k數據集公開發布。

整個流程的最后一步是,如果推理過程未能通過驗證,就過濾掉相應的數據樣本。

下圖可視化地展示了整個過程。

研究團隊首先輸入源數據或問題提示,這些內容可以來自不同的領域和平臺,如BAAI/TACO、DeepMind、Python提交等,涉及代碼、謎題、科學和數學等多個方面。

接著這些多元的輸入會進入核心的處理模塊——DeepSeek-R1,在這里對數據進行分析與處理。這些問題會被分成三個方面,分別是:科學類問題、數學與謎題和代碼。

有些結果不需要驗證,可能是簡單的分析或直接輸出。對于一些需要深入驗證的內容,利用大語言模型(LLM)采用與GT(Ground Truth)對比的方式進行評判。如果是代碼,執行代碼并進行單元測試,確保代碼的正確性和有效性。

最后能將不同方向的結果結合起來,生成開放的思考和更為綜合的解決方案。

研究團隊更新了最終的OpenThoughts-114k數據集,加入了一個名為「metadata」的配置,其中包含了一些用于數據集構建的額外列:

  • problem
  • ground_truth_solution
  • test_cases (code only)
  • starter_code (code only)
  • DeepSeek_reasoning
  • DeepSeek_solution
  • domain
  • source

這些額外的元數據將使得這個數據集更容易用于新的場景,例如數據過濾、領域切換、驗證檢查以及更改推理過程的模板。

這些額外的元數據將得使該數據集使用起來更加容易,僅需一行代碼就能完成例如過濾、更換領域、檢查驗證和更改推理跟蹤模板等。

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

研究團隊表示,他們期待看到社區利用這些問題和標準答案,在OpenThinker模型上進行強化學習(RL)的研究。DeepScaleR已經證明,規模較小時,這種方法效果特別好。

驗證

為了得到最終的OpenThoughts-114k數據集,研究團隊對答案進行了驗證,并剔除了不正確的回答。

如下表所示,保留那些未通過驗證的推理過程可能會損害性能,盡管未經驗證的模型與其他32B推理模型相比仍然表現良好。

驗證的作用在于,在擴大訓練提示集的多樣性和規模的同時,保持R1注釋的質量。另一方面,未經驗證的數據可以更容易地擴展,因此也值得進一步探索。

對于代碼問題,我們通過對照已有的測試用例來驗證解答嘗試,從而完成推理過程的驗證。

受到代碼執行過程中所面臨挑戰的啟發,我們在Curator中實現了一個代碼執行框架,使用戶能夠大規模、安全地執行代碼,并對照預期輸出進行驗證。

對于數學問題,研究團隊使用一個LLM(大語言模型)評判器來進行驗證,它會同時接收標準答案和DeepSeek-R1的解答嘗試。

結果發現,在數據生成過程中,使用LLM評判器而不是更嚴格的解析引擎(Math-Verify)進行驗證,可以獲得更高的有效數據率,并能訓練出性能更好的下游模型。

訓練

研究團隊使用LLaMa-Factory對Qwen2.5-32B-Instruct在OpenThoughts-114k數據集上進行了三輪微調,上下文長度為16k。完整訓練配置可在GitHub中找到。

OpenThinker-32B在AWS SageMaker集群上使用四個8xH100 P5節點訓練了90小時,累計使用了2,880個H100小時。

同時,OpenThinker-32B-Unverified在Leonardo超級計算機上使用96個4xA100節點(每個GPU64GB)訓練了30小時,累計使用了11,520個A100小時。

評估

研究團隊使用開源評估庫Evalchemy(煉金術)對所有模型進行評估。

對于AIME24和AIME25,他們通過平均五次運行的結果來計算準確率。評估配置使用0.7的溫度參數,將模型響應限制在32,768個token以內,不添加任何額外的系統或用戶提示詞,也不使用任何特殊的解碼策略(如預算強制)。

當啟動OpenThoughts項目時,他們設定了一個目標,即創建一個性能可以達到DeepSeek-R1-Distill-Qwen-32B的開放數據模型。

現在這個差距已經幾乎消除。

最后,研究團隊為社區在過去幾周在構建開放數據推理模型方面取得的快速進展感到振奮,并期待基于彼此的洞見繼續向前發展。

OpenThinker-32B的開源,證明了數據、驗證和模型規模的協同作用是提升推理能力的關鍵。

這一成果不僅推動了開源推理模型的發展,也為整個AI社區提供了寶貴的資源和啟示。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-13 00:00:00

訓練數據模型

2025-03-06 17:29:21

2025-04-30 09:09:00

2025-04-18 08:42:52

模型推理AI

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-04-10 10:02:43

2023-06-21 13:20:14

系統模型

2025-03-06 10:14:39

2025-03-06 09:55:49

2023-07-01 13:27:55

2023-08-15 14:18:19

智能研究

2025-03-07 08:30:00

2025-01-22 15:21:00

2025-04-14 09:27:00

2025-01-20 13:08:25

2025-02-07 08:33:02

2023-04-07 09:28:31

模型訓練

2025-01-21 11:53:53

2023-12-25 09:23:07

模型技術

2023-12-16 09:49:18

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲视频一区二区三区四区 | 在线观看免费av网 | 中文字幕在线视频观看 | 久久新视频 | 日本欧美在线视频 | 天天草天天射 | 国产精品96久久久久久 | 欧美日韩一区在线观看 | 波多野结衣先锋影音 | 亚洲国产精品一区二区第一页 | 国产免费一二三区 | 中文字幕免费在线 | 亚洲综合一区二区三区 | 日韩在线观看网站 | 亚洲国产成人精品女人 | 国产一级一级国产 | 欧美激情精品久久久久久免费 | 午夜影院毛片 | 色999日韩 | 亚洲精品久久久一区二区三区 | 亚洲视频自拍 | 久久久青草婷婷精品综合日韩 | www.狠狠操 | 九色网址 | 中文字幕一区二区三区不卡 | 成人区精品一区二区婷婷 | 日韩欧美在 | 日韩精品免费在线观看 | 综合色在线 | 亚洲精品9999 | 99精品视频在线观看免费播放 | 久久精品 | 91看片免费 | 成人在线观看亚洲 | 欧美在线综合 | 一区二区三区久久 | 狠狠狠色丁香婷婷综合久久五月 | 91就要激情| 久久九九免费 | 欧美精品一二三区 | 久久伊人操 |