成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開

發布于 2025-4-9 10:23
瀏覽
0收藏

今天凌晨4點,著名大模型訓練平臺Together AI和智能體平臺Agentica,聯合開源了新模型DeepCoder-14B-Preview。


該模型只有140億參數,但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型(59.5%),略低于o3-mini(60.9%)。在Codeforces、AIME2024上的評測數據同樣非常出色,幾乎與o1、o3-mini差不多。


值得一提的是,Together AI不僅開源了DeepCoder-14B模型權重,還把訓練數據集、訓練方法、訓練日志和優化方法全部公開,幫助開發者更深度的了解這個模型所有開發流程。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

開源地址:??https://huggingface.co/agentica-org/DeepCoder-14B-Preview??

github:??https://github.com/agentica-project/rllm??


DeepCoder是在Deepseek-R1-Distilled-Qwen-14B基礎之上,通過分布式強化學習(RL)進行了微調。


在開發過程中,研究人員首先構建了一個高質量訓練數據集,包含24K個可驗證的編程問題:涵蓋TACOVerified 問題、PrimeIntellect 的 SYNTHETIC-1 數據集中的驗證問題等。

為了確保數據質量,通過程序驗證、測試過濾和去重等步驟。程序化驗證,每個問題都會使用外部官方解決方案自動進行驗證。會過濾數據集,只包含官方解決方案通過所有單元測試的問題。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

測試過濾,每個問題必須至少包含5個單元測試。重復數據刪除,刪除了數據集中的重復問題,以避免污染。


在代碼強化學習訓練中,DeepCoder 使用了兩種沙盒來運行單元測試并計算獎勵。

Together Code Interpreter 是一個快速高效的環境,與RL訓練直接兼容,成本低且可擴展性強,能夠支持100多個并發沙盒和每分鐘1000多個沙盒執行。


本地代碼沙盒則是一個獨立的、受保護的 Python子進程,遵循官方 LiveCodeBench倉庫中的相同評估代碼,確保了結果與現有排行榜的一致性。


在獎勵函數設計方面,DeepCoder采用了稀疏結果獎勵模型(ORM),避免分配部分獎勵,從而防止模型通過獎勵黑客行為來獲取不準確的獎勵信號。


獎勵函數簡單而明確:如果生成的代碼通過所有采樣單元測試,則獎勵為 1;否則為 0。這種設計確保了模型能夠專注于生成高質量的代碼,而不是通過記憶測試用例來獲取獎勵。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

為了實現更穩定的訓練過程,DeepCoder的訓練采用了 GRPO+,這是對原始 GRPO 算法的改進版本。


通過消除熵損失和 KL 損失、引入過長過濾和上限裁剪等技術,GRPO+ 使得模型在訓練過程中能夠保持穩定的熵值,避免訓練崩潰,并且能夠更自然地生成較長的輸出,從而提高了模型的推理能力。


此外,DeepCoder-14B-Preview 采用了迭代上下文擴展技術,使模型能夠從較短的上下文長度開始學習,然后逐步泛化到更長的上下文。該模型的上下文窗口從 16K 擴展到 32K,最終在 64K上下文中評估時達到了60.6%的準確率。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

為了加速端到端的RL訓練,DeepCoder 團隊引入并開源了 verl-pipeline,這是 verl 的一個優化擴展。通過一次性流水線技術,DeepCoder 實現了訓練、獎勵計算和采樣的完全流水線化。


同時,獎勵計算與采樣交錯進行,減少了獎勵評估的開銷。這些優化使得訓練時間減少了 2 倍,特別是在需要運行數千個測試用例的編碼任務中,顯著提高了訓練效率。


雖然DeepCoder剛開源但評價非常高,網友表示,這相當令人驚訝。它不僅是真正意義上的開源,而且他們還對廣義信賴域策略優化算法(GRPO)進行了多項改進,并且在訓練過程中為采樣流水線增添了額外的效率提升。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

太厲害了!等不及這款模型在 Ollama 平臺上體驗了。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

圣誕節提前到來了。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

傳奇!開源就應該這樣。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

關于Together AI

Together AI成立于2022年,主打云大模型平臺支持超過200種開源AI模型,包括Llama系列、DeepSeek-R1等,并優化了高速推理和模型訓練的基礎設施。目前擁有超過3.6萬塊GB200 NVL72組成的超大GPU算力群。


此外,Together AI還提供模型微調、Agent智能自動化工作流和合成數據生成等,為大企業提供底層服務。

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數據集大公開-AI.x社區

前不久,Together AI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。


本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/CJLmnlCuq3Wgv308uCYrgg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 色婷婷亚洲国产女人的天堂 | a在线观看免费 | 亚洲人人| 亚洲影音先锋 | 日韩精品一区二区三区中文在线 | 日本中文在线视频 | 九九热在线免费视频 | 国产综合精品 | com.国产| 亚洲欧美综合精品久久成人 | 精品一区国产 | 久久久久久国产精品 | 人人天天操 | 亚洲国产一区视频 | 国产a视频 | 国产激情自拍视频 | 欧美成人a∨高清免费观看 色999日韩 | www.亚洲成人网 | 福利视频网址 | 久草新在线 | 男女黄网站 | 日韩综合| 国产精品久久久久久中文字 | 成人国产精品入口免费视频 | 中文字幕在线看第二 | 美女爽到呻吟久久久久 | 久久精品国产免费一区二区三区 | 国产精品99久久久久久www | 国产高清不卡 | 国产麻豆乱码精品一区二区三区 | 一级黄色日本片 | 黄色国产视频 | 久在线精品视频 | 国产精品亚洲精品日韩已方 | 久草视频在线播放 | 草b视频 | 国产精品免费看 | 青青草综合 | 男女羞羞在线观看 | 日本精品一区二区三区在线观看视频 | 久草福利 |