成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全球開發者組團訓練,首個異步強化學習32B推理模型震撼來襲!數據已開源

人工智能 新聞
全球首個去中心化強化學習訓練的32B模型震撼發布!無需授權,就能用自家異構計算資源參與其中,讓編碼、數學與科學領域的推理性能邁向新高度。

最近,全球第一個用去中心化強化學習訓練的32B模型——INTELLECT-2正式發布!

任何人都能用自己的異構計算資源參與,無需授權。

這種全新的范式,讓去中心化訓練在編碼、數學和科學領域,邁向前沿的推理性能。

圖片

INTELLECT-2是大規模去中心化強化學習的開端,他們的下一步計劃是用強化學習訓練端到端智能體。

去中心化強化學習正處于起步階段,若能匯聚社區和各方貢獻,開源AI有望超越閉源實驗室。

AI社區對這項工作給出了非常積極的肯定。

圖片

圖片

隨著OpenAI o1和DeepSeek R1的發布,出現了預訓練以外的擴展范式,借助RL進行優化,讓模型有更多時間進行推理。

之前發布的成果曾探討,為何通過RL訓練的推理模型,相比標準的LLM預訓練,更適合去中心化訓練。

INTELLECT-2將有力地證實這一觀點。

圖片

博客鏈接:https://www.primeintellect.ai/blog/intellect-2

全球首個去中心化強化學習32B模型

過去一年,研究者致力于構建所有關鍵的開源組件,讓INTELLECT-2具備前沿的推理性能,支持異構計算節點,并允許無需授權的貢獻,能對32B參數模型進行去中心化RL訓練:

  • prime-RL:新推出的開源庫,用于完全異步的去中心化RL,基于具備容錯的去中心化訓練框架prime開發。
  • SYNTHETIC-1 & GENESYS:用于RL任務眾包和驗證環境的庫。
  • TOPLOC:實現高效、可驗證的推理方法,用于驗證INTELLECT-2中所有去中心化rollout節點的計算。
  • 協議測試網:提供基礎設施和經濟激勵,用于聚合和協調全球計算資源,打造真正自主的開源AI生態系統。

圖片

Prime-RL:去中心化訓練框架

INTELLECT-2基礎設施主要由三個組件構成:

  • 推理采樣節點(Inference Rollout Workers):一組去中心化節點,用最新的策略模型,從環境中收集推理軌跡(reasoning rollouts),并計算相應的獎勵。
  • TOPLOC驗證節點(TOPLOC Validators):負責高效驗證無需授權的rollout工作節點的推理計算,打造無需信任的系統。
  • GRPO訓練節點(GRPO Training Workers):從去中心化推理采樣節點收集到新生成的數據后,采用DeepSeek的GRPO訓練方法進行訓練。訓練完成后,這些訓練節點會通過Shardcast庫,將更新后的權重廣播給所有推理節點,以啟動下一輪數據收集。

該基礎設施具備以下特性:

  • 完全消除通信開銷:通過異步強化學習,新策略模型的廣播與正在進行的推理和訓練完全重疊,通信不再成為瓶頸。
  • 支持異構推理節點:允許任何人按自己的節奏生成推理軌跡(reasoning traces),跨節點處理速度沒有統一要求。
  • 資源需求低:在這種訓練設置中,占計算資源大頭的推理節點可以在消費級GPU上運行。例如,配備4塊RTX 3090 GPU的機器,足以支持32B參數模型的訓練。
  • 實現高效驗證:推理計算的驗證過程,不會引入訓練瓶頸。

異步強化學習

RL在本質上比傳統的LLM預訓練更具異步性。在去中心化RL中,數據收集和網絡訓練可以分開進行。

多個節點在并行環境中運行,各自異步收集經驗數據,中央學習器負責接收和處理這些數據。

由于經驗數據到達的時間不同,且來自狀態空間的不同部分,每個步驟的發生速率也有所不同。

異步強化學習在Tulu 3和Llama 4中得到了成功應用,采用單步異步強化學習方法,提升了訓練效率。

消融實驗表明,即使采用四步異步訓練(即推理節點使用的策略模型落后四步),也能復現DeepScaleR的結果,且不會降低模型性能。

這樣的異步程度,在去中心化RL訓練中,即使全局互聯較弱,也能將通信時間完全隱藏在計算過程中。

圖片

同步DeepScaleR訓練與異步Prime-RL的比較:即使延遲增加(最多四步),Prime-RL的性能仍能與同步基線媲美

此外,異步強化學習不僅實現了去中心化訓練設置,還通過分別優化訓練和推理引擎,進一步提高了效率。

例如,在prime-rl庫中,rollout節點可以利用vLLM,及全套推理優化技術。

完全異步的在線RL訓練框架prime-rl已開源,任何人都能借此開啟全球去中心化RL訓練。

Shardcast

基礎設施中的一個關鍵組件,Shardcast是能盡快將新策略模型從訓練節點廣播到所有去中心化推理節點的機制。

Shardcast是一個通過基于HTTP的樹狀拓撲網絡分發大型文件的庫,由以下部分組成:

  • 源服務器(Origin Server):作為根節點,將大文件分片,并通過HTTP提供分片服務。
  • 中間節點(Middle Nodes):作為中間服務器,從上游服務器下載分片,并以流水線方式轉發。
  • 客戶端節點(Client Nodes):下載分片并重新組裝成原始文件。

圖片

TOPLOC驗證

TOPLOC是一種用于可驗證推理的局部敏感哈希方案,旨在檢測推理過程中的惡意修改。

它能實現以下功能:

  • 檢測推理過程中對模型、提示或精度的修改。
  • 有效應對GPU硬件的不確定性,這是可驗證計算中的主要挑戰之一。TOPLOC在不同類型的GPU、張量并行配置和注意力內核上都能可靠運行。
  • 驗證速度比生成速度快得多。

在INTELLECT-2中對TOPLOC進行生產環境測試,任何人都能以無需授權的方式貢獻GPU資源。

圖片

協議測試網

幾周前,團隊宣布了公共協議測試網的啟動,旨在實現真正自主的開源AI生態系統。

今天,首個無需授權的計算池開放,任何人都能在自己的GPU上運行協議測試網節點。

注冊、計算資源驗證、對惡意行為的懲罰等操作,都在公共以太坊Base測試網上完成。這帶來了諸多好處:

  • 全球規模的計算資源聚合:節點設計允許任何人在全球任何計算設備上運行,加入去中心化網絡,并最終因節點所做的貢獻獲得獎勵。這有助于擴展規模,無授權地整合來自全球的數據中心資源。
  • 為完全去中心化訓練奠定基礎:所有加入計算池的節點都以點對點(peer-to-peer)的方式進行通信和協調。這為完全去中心化、無授權地訓練和微調開源模型奠定了基礎,對構建真正自主的開源AI生態系統至關重要。

圖片

除了對基礎設施進行多項改進,在協議層面也有其他關鍵進展。

  • 檢測和防范攻擊與欺詐的機制:將TOPLOC驗證集成到節點中,實現高效驗證,有助于識別偽造GPU或污染數據集的行為。
  • 鼓勵誠實行為的激勵:為減少不誠信行為,嘗試采用經濟激勵,抑制偽造GPU或提交虛假數據等惡意行為。具體做法是要求節點預先抵押一定的資金,如果節點被認定存在不誠信行為,這些抵押資金將被扣除。

此外,團隊為節點的工作設定了24小時的驗證期,期間若發現問題,節點工作將被判定無效并扣除相應獎勵。如果節點出現惡意行為或試圖鉆機制的空子,最多會扣除24小時的獎勵。

模型訓練詳情

INTELLECT-2的目標是訓練出一個具有可控思考預算的前沿推理模型。

用戶和開發者可通過系統提示詞,指定模型在得出最終解決方案前,對一個問題應思考的token數量。

這種方法能讓訓練出的模型在實際應用中更加高效。

近期的研究(如ThinkPrune、L1和Deepscaler)表明,經過專門訓練、在嚴格約束下進行推理訓練的模型,幾乎能解決所有無約束推理模型可解決的問題,且速度更快,推理成本也更降低。

通過提示控制推理預算,用戶既能利用這一優勢,又能在遇到極具挑戰性的問題時,選擇更長的推理時間。

圖片

「L1:利用RL控制推理模型的思考時長」的研究結果表明,推理模型可以被訓練來遵循其提示詞中指定的token數量,且模型性能會隨推理預算的增加而可預測地提升;團隊用自研框架prime-rl獨立復現了論文結果

為訓練出這樣的模型,團隊以QwQ-32B為基模型,遵循Deepseek-R1的方法,應用GRPO算法,結合數學和編程領域的可驗證獎勵。

在初步實驗中,以下幾個部分對控制模型思考預算、提升模型性能起到了重要作用:

通過長度獎勵實現可控思考預算

除了根據輸出的正確性給予任務獎勵外,還引入了長度獎勵,以引導模型遵循提示詞中指定的思維預算。

團隊參考了L1的研究思路,從指定范圍內采樣目標長度,將其加入提示詞,根據目標長度與實際響應長度的差異來分配獎勵。

與L1不同,團隊沒有從一個連續的值范圍中采樣目標長度,而是從一小組預定義的值中采樣,更有利于模型學習。

通過長度控制進行訓練,不僅讓模型更實用,還能更高效地利用異構推理硬件。

對于每個rollout過程,為GPU顯存和算力較低的推理節點分配較小的思考預算,為計算能力更強的節點分配較大的思考預算。

這樣,可以在較慢的節點設置較低的最大生成長度,從而在使用異構硬件時,各個rollout的處理時間基本一致。

離線數據過濾

實驗中發現仔細篩選數據對模型性能至關重要。

用原始的Deepscaler數據集和方法訓練DeepSeek-R1-Distill-Qwen-7B模型時,模型性能并未提升。

對數據難度進行嚴格篩選,只保留模型無法100%正確解答的問題。訓練過程中的獎勵增加,最終模型在數學基準測試中的表現也有提高。

圖片

在Deepscaler數據集的未過濾版本(左)和經難度過濾版本(右)上訓練DeepSeek-R1-Distill-Qwen-7B的獎勵軌跡

為篩選INTELLECT-2的訓練數據集,用DeepSeek-R1-Distill-Qwen-7B對所有問題進行8次采樣,以評估問題的難度。為確保訓練集中只保留具有挑戰性的問題,僅采用解答率為75%及以下的問題。

在線優勢過濾:訓練過程中,如果所有完成結果都獲得相同的獎勵,這些問題就不會產生訓練信號,因為其優勢值(以及相應的損失)為零。

團隊會過濾掉這些問題,繼續進行推理,直到獲得一整批具有非零優勢的問題。

這提高了訓練效率,避免在無意義的樣本上浪費計算資源。此外,這意味著推理所需時間多于訓練,因此非常適合用去中心化推理節點。

訓練任務與驗證器

對于INTELLECT-2,團隊主要關注可驗證的數學和編程問題,從SYNTHETIC-1中選取了經過嚴格質量和難度篩選的任務子集。

完整的訓練數據集可在Hugging Face上獲取。

圖片

數據集地址:https://huggingface.co/datasets/PrimeIntellect/Intellect-2-RL-Dataset

如何貢獻計算資源

INTELLECT-2是首個真正意義上允許任何人用自己的計算資源參與的項目。

由于大家的熱情極高,計算池的容量早早就已經滿了。

現在想要貢獻算力,還得提申請排隊才行。

圖片

當然,并不是隨便什么算力他們都接受——

  • GPU必須是A100(80GB),H100(80GB),H200(141GB)
  • 算力節點需要是4卡或者8卡為一組

圖片圖片

訓練進度和算力貢獻情況長這樣:

圖片

儀表盤:https://app.primeintellect.ai/intelligence 

總結來看,INTELLECT-2的發布是大規模去中心化強化學習的開端。

基礎架構現已搭建完畢,接下來需要共同努力,將其擴展到更具影響力的應用領域。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-02 12:47:08

2025-06-05 08:40:00

2025-04-02 09:00:00

模型開源AI

2017-02-24 13:27:37

阿里開源

2025-06-23 09:07:00

2025-03-19 09:20:00

2025-03-07 08:30:00

2025-02-25 09:02:26

2025-06-11 14:39:50

AILLMMistral

2025-03-06 12:43:03

DeepSeek阿里推理模型

2025-06-12 08:46:00

2024-09-13 06:32:25

2025-03-19 09:00:00

模型AI訓練

2017-07-18 10:16:27

強化學習決策問題監督學習

2025-01-13 00:00:00

訓練數據模型

2025-03-25 13:31:45

2024-07-26 09:33:22

2024-04-10 08:15:17

模型語言模型GPT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91n成人 | 成人影院在线视频 | 亚洲黄色一级毛片 | 91网视频 | a级片播放| 91视频进入 | av在线电影网站 | 日韩高清国产一区在线 | 国产一区二区三区色淫影院 | 红桃视频一区二区三区免费 | 亚洲一区二区中文字幕 | 福利视频网站 | 成人午夜网站 | 久久亚洲天堂 | 自拍偷拍亚洲一区 | 国产精品视频久久久 | 国产精品毛片av一区 | 少妇精品亚洲一区二区成人 | 久久久久久久99 | 在线欧美亚洲 | 久久99精品久久久久久狂牛 | 在线观看视频91 | 一级做a爰片性色毛片 | 亚洲国产高清免费 | 99re在线视频免费观看 | 欧美精品国产精品 | 欧美一区二区三区 | 亚洲欧美激情国产综合久久久 | 中文字幕在线观 | 日本精品一区二区三区视频 | 日本电影韩国电影免费观看 | 亚洲精品久久久久久宅男 | 日韩综合| 日日夜夜91 | 国产精品高潮呻吟久久 | 欧美激情精品久久久久久 | 九色av| 一级毛片免费视频 | 久久久久久网站 | 中文字幕人成乱码在线观看 | 99精品久久久久久中文字幕 |