成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<strike id="11116"></strike>

<tt id="11116"><dd id="11116"><span id="11116"></span></dd></tt>

<kbd id="11116"><small id="11116"></small></kbd>

<video id="11116"></video>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

超越DeepSeek V3！Ai2再祭開源殺器Tülu 3，強化學習打破性能瓶頸

作者：新智元 2025-02-05 12:53:21

當我們在歡呼Deepseek超越ChatGPT時，來自美國的艾倫人工智能研究所（Ai2）推出了基于強化學習的新一代開源模型Tülu 3 405B，不僅能夠媲美GPT-4o，更在多項關鍵基準測試中超越了DeepSeek v3。

2024年11月，艾倫人工智能研究所（Ai2）推出了Tülu 3 8B和70B，在性能上超越了同等參數的Llama 3.1 Instruct版本，并在長達82頁的論文中公布其訓練細節，訓練數據、代碼、測試基準一應俱全。

圖片

論文鏈接：https://arxiv.org/pdf/2411.15124

1月30日，更大杯的Tülu 3 405B震撼登場。

Tülu 3 405B在許多標準的基準測試中均實現了與Deepseek v3和GPT-4o相當或更優的性能，而且也超越了許多先前發布的后訓練開源模型（同等參數規模），包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。

圖片

各項基準結果比較，最后一列是強化學習優化過的Tülu 3 405B的表現，在多項指標上超越了Deepseek V3

不過在官網提供的體驗版上試了試，效果也并不是那么好，對于經典的數Strawberry中有幾個r的問題，Tülu 3同樣撲街，不過之后需要推理的問題，模型倒是給出了正確的回答思路。

圖片

demo傳送門：https://playground.allenai.org/

至于其生成出的一些與蛇相關的格言，大多都沒有理解傳統文化中「蛇」的寓意，顯得牛頭不對馬嘴。

圖片

對于想體驗本地大模型的讀者，Tülu 3 8B和70B已支持ollama下載，可以方便地集成使用，相信405B也會盡快上線ollama平臺。

Tülu 3的煉丹術如何

早期的語言模型后訓練工作遵循了由InstructGPT等模型開創的標準方法，包括指令微調（instruction-tuning）和偏好微調（preference fine-tuning）。

自此以后，后訓練方法的復雜性和精密度不斷增加，但大多數成功的后訓練模型對其訓練數據、代碼或訓練方法的披露非常有限。在眾多后訓練研究中，Ai2罕見地選擇了完整發布訓練數據、方法和研究成果，包括最新的Tülu 3在內。

圖片

倉庫地址：https://github.com/allenai/open-instruct

Tülu 3的全部構建流程如下圖所示，包括主要包括數據、訓練和評估三部分。

圖片

Tülu 3項目始于確定通用語言模型的關鍵期望能力，包括知識、推理、數學、編程、指令遵循、日常聊天和安全性。

其中最關鍵的模型訓練，是在預訓練語言模型（即Llama 3 Base）的基礎上采用四階段后訓練配方，四階段依次是：

1）精心策劃和合成式提示（prompt）；其使用的提示詞來源如下：

圖片

2）在精心挑選的提示詞以及相應生成內容的混合數據集上進行監督微調，以針對核心技能優化模型；同時為了保證模型安全性，使用如下帶有攻擊性提示詞的數據，訓練Tülu 3讓其盡可能不會被攻破。

圖片

3）結合離線和在線策略偏好數據以應用偏好微調；

圖片

具體來說，就是在之前提示詞的基礎上，再生成一些不同的新提示詞，通過22種開源大模型生成回答，讓GPT-4o對各模型給出的回答在有用程度、真實性、誠實性及指令遵循上的表現進行打分，決定是否接受該回答作為訓練數據。

4）一種新的基于強化學習（RL）的方法，通過可驗證獎勵來增強特定技能；

具體來說，Tülu 3使用了一種獨創的后訓練方法，稱為：可驗證獎勵強化學習（Reinforcement Learning from Verifiable Rewards，簡稱RLVR），流程圖如下所示。

這種新的訓練方法專門針對具有可驗證結果的任務，例如數學問題求解和指令遵循問題。根據訓練數據和提示詞，明確判斷問題是否完成，從而更新策略函數。

圖片

有趣的是，訓練采用的可驗證獎勵強化學習框架在更大規模（例如405B）上對數學性能的提升更為顯著，這與DeepSeek-R1報告中的發現類似，即相比70B和8B參數規模，405B模型由強化學習帶來的提升更為明顯。

對此，可能的解釋是小型模型從更多樣化的數據中受益更多，而大型模型更適合處理需要專門數據的復雜任務。

訓練Tülu 3 405B時使用了32個節點（256個GPU）并行運行。對于推理，可使用vLLM部署模型，采用16路張量并行，同時利用剩余的240個GPU進行訓練。

鑒于計算成本有限，超參數調整受到限制。訓練時遵循了「參數更大的模型采用較低學習率」的原則，這與Llama模型之前的實踐一致。

圖片

上圖展示了在405B的參數量上，MATH數據集的可驗證獎勵、KL散度和模型響應長度隨訓練輪次的變化曲線，總體而言，可驗證獎勵像在8B和70B設置中觀察到的那樣上升。

圖中星號標記對應最終檢查點的位置。論文表示，團隊本打算訓練更長時間，但由于計算資源限制而被迫停止。由于在訓練過程中沒有觀察到數學性能飽和，進一步訓練可能會進一步提升性能。

總體來看，Tülu 3采用了全新的后訓練框架，包括完全開源的數據（Tülu 3 Data）、評估（Tülu 3 Eval）、訓練代碼（Tülu 3 Code）以及開發配方（Tülu 3 Recipe），并在性能上超越了同尺度的開源及閉源模型。

Tülu 3標志著開放后訓練研究的一個新的里程碑。憑借Ai2披露的信息和研究成果，其他人可以在開放的基礎模型上繼續構建，并針對多樣化任務進行微調以實現高性能，這為在多目標和多階段訓練框架內推進后訓練研究鋪平了道路，其提出的訓練方法也值得開發者借鑒。

參考資料：https://arxiv.org/pdf/2411.15124

責任編輯：武曉燕來源：新智元

DeepSeek Ai2 ChatGPT

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：亚洲成av人影片在线观看 | 91资源在线播放 | 欧美一级片免费看 | 99久久精品国产一区二区三区 | 欧美日一区二区 | 亚洲www啪成人一区二区麻豆 | 国产一区二区视频在线观看 | 九九热视频这里只有精品 | japanhd美女动 | 黄色大片免费看 | 伊人一区 | 综合另类 | 粉嫩国产精品一区二区在线观看 | 91麻豆产精品久久久久久夏晴子 | 欧美国产亚洲一区二区 | 国产精品a久久久久 | 日本视频中文字幕 | 精品国产一区二区国模嫣然 | 国产伦精品一区二区三区高清 | 中文字幕日韩欧美一区二区三区 | 男女av| 国产jizz女人多喷水99 | 欧美三级电影在线播放 | 国产目拍亚洲精品99久久精品 | 日本一区二区在线视频 | 国产精品日日做人人爱 | 91大神xh98xh系列全部 | 国产欧美一区二区三区国产幕精品 | 国产一区日韩在线 | 精品欧美 | 日韩视频一区 | 黄色免费网 | 激情欧美日韩一区二区 | 日本精品999| 国产欧美日韩精品一区 | 台湾a级理论片在线观看 | 日韩精品一区二区三区视频播放 | 日本不卡免费新一二三区 | 一区视频 | 在线成人免费视频 | 亚洲天堂日韩精品 |

<kbd id="11661"><meter id="11661"></meter></kbd>