超越DeepSeek V3!Ai2再祭開源殺器Tülu 3,強化學習打破性能瓶頸
2024年11月,艾倫人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等參數的Llama 3.1 Instruct版本,并在長達82頁的論文中公布其訓練細節,訓練數據、代碼、測試基準一應俱全。
圖片
論文鏈接:https://arxiv.org/pdf/2411.15124
1月30日,更大杯的Tülu 3 405B震撼登場。
Tülu 3 405B在許多標準的基準測試中均實現了與Deepseek v3和GPT-4o相當或更優的性能,而且也超越了許多先前發布的后訓練開源模型(同等參數規模),包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。
圖片
各項基準結果比較,最后一列是強化學習優化過的Tülu 3 405B的表現,在多項指標上超越了Deepseek V3
不過在官網提供的體驗版上試了試,效果也并不是那么好,對于經典的數Strawberry中有幾個r的問題,Tülu 3同樣撲街,不過之后需要推理的問題,模型倒是給出了正確的回答思路。
圖片
demo傳送門:https://playground.allenai.org/
至于其生成出的一些與蛇相關的格言,大多都沒有理解傳統文化中「蛇」的寓意,顯得牛頭不對馬嘴。
圖片
對于想體驗本地大模型的讀者,Tülu 3 8B和70B已支持ollama下載,可以方便地集成使用,相信405B也會盡快上線ollama平臺。
Tülu 3的煉丹術如何
早期的語言模型后訓練工作遵循了由InstructGPT等模型開創的標準方法,包括指令微調(instruction-tuning)和偏好微調(preference fine-tuning)。
自此以后,后訓練方法的復雜性和精密度不斷增加,但大多數成功的后訓練模型對其訓練數據、代碼或訓練方法的披露非常有限。在眾多后訓練研究中,Ai2罕見地選擇了完整發布訓練數據、方法和研究成果,包括最新的Tülu 3在內。
圖片
倉庫地址:https://github.com/allenai/open-instruct
Tülu 3的全部構建流程如下圖所示,包括主要包括數據、訓練和評估三部分。
圖片
Tülu 3項目始于確定通用語言模型的關鍵期望能力,包括知識、推理、數學、編程、指令遵循、日常聊天和安全性。
其中最關鍵的模型訓練,是在預訓練語言模型(即Llama 3 Base)的基礎上采用四階段后訓練配方,四階段依次是:
1)精心策劃和合成式提示(prompt);其使用的提示詞來源如下:
圖片
2)在精心挑選的提示詞以及相應生成內容的混合數據集上進行監督微調,以針對核心技能優化模型;同時為了保證模型安全性,使用如下帶有攻擊性提示詞的數據,訓練Tülu 3讓其盡可能不會被攻破。
圖片
3)結合離線和在線策略偏好數據以應用偏好微調;
圖片
具體來說,就是在之前提示詞的基礎上,再生成一些不同的新提示詞,通過22種開源大模型生成回答,讓GPT-4o對各模型給出的回答在有用程度、真實性、誠實性及指令遵循上的表現進行打分,決定是否接受該回答作為訓練數據。
4)一種新的基于強化學習(RL)的方法,通過可驗證獎勵來增強特定技能;
具體來說,Tülu 3使用了一種獨創的后訓練方法,稱為:可驗證獎勵強化學習(Reinforcement Learning from Verifiable Rewards,簡稱RLVR),流程圖如下所示。
這種新的訓練方法專門針對具有可驗證結果的任務,例如數學問題求解和指令遵循問題。根據訓練數據和提示詞,明確判斷問題是否完成,從而更新策略函數。
圖片
有趣的是,訓練采用的可驗證獎勵強化學習框架在更大規模(例如405B)上對數學性能的提升更為顯著,這與DeepSeek-R1報告中的發現類似,即相比70B和8B參數規模,405B模型由強化學習帶來的提升更為明顯。
對此,可能的解釋是小型模型從更多樣化的數據中受益更多,而大型模型更適合處理需要專門數據的復雜任務。
訓練Tülu 3 405B時使用了32個節點(256個GPU)并行運行。對于推理,可使用vLLM部署模型,采用16路張量并行,同時利用剩余的240個GPU進行訓練。
鑒于計算成本有限,超參數調整受到限制。訓練時遵循了「參數更大的模型采用較低學習率」的原則,這與Llama模型之前的實踐一致。
圖片
上圖展示了在405B的參數量上,MATH數據集的可驗證獎勵、KL散度和模型響應長度隨訓練輪次的變化曲線,總體而言,可驗證獎勵像在8B和70B設置中觀察到的那樣上升。
圖中星號標記對應最終檢查點的位置。論文表示,團隊本打算訓練更長時間,但由于計算資源限制而被迫停止。由于在訓練過程中沒有觀察到數學性能飽和,進一步訓練可能會進一步提升性能。
總體來看,Tülu 3采用了全新的后訓練框架,包括完全開源的數據(Tülu 3 Data)、評估(Tülu 3 Eval)、訓練代碼(Tülu 3 Code)以及開發配方(Tülu 3 Recipe),并在性能上超越了同尺度的開源及閉源模型。
Tülu 3標志著開放后訓練研究的一個新的里程碑。憑借Ai2披露的信息和研究成果,其他人可以在開放的基礎模型上繼續構建,并針對多樣化任務進行微調以實現高性能,這為在多目標和多階段訓練框架內推進后訓練研究鋪平了道路,其提出的訓練方法也值得開發者借鑒。