成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

突破性創新:Genius框架實現大語言模型無監督自我進化 精華

發布于 2025-4-16 06:29
瀏覽
0收藏

在人工智能的發展歷程中,大語言模型(LLM)的推理能力一直是研究的核心焦點。然而,傳統的推理能力增強方法往往依賴于高質量的監督信號,如標注好的答案或外部獎勵模型,這不僅成本高昂,而且難以擴展。近期,來自上海人工智能實驗室、西安交通大學等機構的研究團隊提出了一個革命性的解決方案——Genius框架,這是一個可泛化、純無監督的高級推理自訓練框架,能夠讓大語言模型在沒有任何外部監督的情況下自我提升推理能力。

突破性創新:Genius框架實現大語言模型無監督自我進化-AI.x社區

傳統方法的局限性

目前增強LLM推理能力的方法主要分為兩類:一類是監督微調(SFT),需要與查詢配對的帶有良好注釋的響應;另一類是強化類方法,需要基本事實答案或驗證。前者在數學和編碼等特定領域有效,但許多其他問題缺乏明確的解決方案或基本事實,難以推廣到更廣泛的推理任務。后者利用外部獎勵模型進行驗證,但通用獎勵模型的訓練依賴昂貴的注釋,并可能引發獎勵黑客問題。

突破性創新:Genius框架實現大語言模型無監督自我進化-AI.x社區

這些限制促使研究者提出一個關鍵問題:如何在沒有任何外部監督的情況下提高LLM推理能力?

Genius:無監督自訓練的創新框架

Genius框架通過提出一種可泛化的自訓練方法解決上述問題。與傳統方法不同,Genius只需要策略LLM本身和一組無監督查詢,無需外部輔助。它建立在自訓練范式之上,即LLM首先根據輸入查詢生成響應,然后選擇最優響應進行訓練。

核心技術創新

1. 基于前瞻性重采樣的探索與利用

生成自訓練數據的關鍵挑戰是如何在不依賴外部資源的情況下收集和自我獎勵LLM響應。Genius采用逐步采樣方法,通過前瞻性技術來尋求最優響應序列。

具體來說,Genius通過以下步驟工作:

  • 步驟展開與前瞻在每個時間戳,Genius首先展開一組候選步驟,并通過模擬未來步驟來自我獎勵它們。
  • 基于前瞻的重采樣使用前瞻分數來近似分布,然后對其進行采樣以確定下一步(用于探索),并重新采樣以創建步驟級偏好對(用于開發)。
  • 優勢計算與數據構建為正面和負面響應序列計算優勢值,并構建訓練偏好對。

突破性創新:Genius框架實現大語言模型無監督自我進化-AI.x社區

2. 優勢校準優化(ACO)

雖然上述方法提供了一種質量-效率平衡的解決方案,但基于少量展開計算前瞻分數分布可能導致步驟值的偏差估計,不可避免地為自監督標簽引入噪聲。為解決這一問題,Genius引入了優勢校準優化(ACO)損失函數,通過懲罰前瞻分數和步驟優勢之間的不一致估計來提高自訓練優化的魯棒性。

突破性創新:Genius框架實現大語言模型無監督自我進化-AI.x社區

ACO損失函數可以分為兩個不同區域:正常區域校準區域。在正常區域,負面響應序列與正面響應序列可區分;而在校準區域,當負面響應序列提供更多實際優勢時,它將受到較少的懲罰(在自獎勵計算中權重較小)。

實驗結果:無監督自訓練的有效性

研究團隊在多個推理基準測試上評估了Genius的性能,包括:

  • 數學推理:GSM8K、MATH、GPQA
  • 邏輯推理:ReClor、LogiQA
  • 一般推理:StrategyQA、ARC-Challenge
  • 通用基準:AlpacaEval、WildBench、ArenaHard、WikiBench、MMLU、MMLU-Pro
  • 競賽級任務:AIME2024

主要發現

  • 顯著提升推理能力僅使用25K無監督訓練查詢,Genius就將LLaMA3.1-8B-Instruct的平均CoT推理性能提高了7.43%。
  • 優于強基線Genius在所有評估基準上一致表現出最先進的性能,平均優勢>2%。
  • 在具挑戰性任務中表現更佳在MATH等具挑戰性任務上,Genius比Self-Rewarding表現更好,優勢>4%。
  • 通用任務性能一致性Genius在通用領域保持了性能穩定,大多數情況下略有改善。
  • 適用于不同骨干LLM在Qwen2.5系列模型上的實驗表明,Genius可以作為一種通用的后訓練技術,既可以作為已后訓練LLM的持續自訓練方法,也可以作為模型本身的替代后訓練策略。

突破性創新:Genius框架實現大語言模型無監督自我進化-AI.x社區

后訓練擴展規律

研究還探索了Genius的后訓練擴展規律。結果表明,Genius能夠隨著訓練步驟的增加迅速自我改進,并且進展平穩。這表明使用Genius進行自訓練遠未飽和,仍有改進空間,而其他基線方法在擴展時似乎面臨挑戰。

突破性創新:Genius框架實現大語言模型無監督自我進化-AI.x社區

技術深度解析

方法論詳解

預備知識

Genius的一個主要優勢是它只需要無監督自然語言(NL)查詢作為輸入。在自訓練設置下,LLM πθ根據查詢生成響應,然后選擇最優響應來優化自身。Genius的主要目標分為兩部分:(1)合成和獎勵響應;(2)使用響應優化LLM。

基于前瞻重采樣的探索與利用

為確保多樣性,Genius在逐步采樣過程中使用束搜索策略。步驟束大小定義為M,文章中展示了M=2的簡單情況。

步驟展開與前瞻:在時間戳k-1,Genius保持M個前置路徑a<k,每個路徑由k-1個步驟組成。路徑中最后一步的值定義為Qk-1(m),其中m∈[1,M]。對于每個束m,Genius首先展開N個候選步驟ak,總共產生M*N個候選步驟。

為了解決自回歸生成的局限性并構建全局感知的響應,Genius基于每個候選步驟ak執行未來步驟的模擬,稱為"前瞻"。這允許我們導出響應序列及其各自的前瞻分數,使用剩余步驟的平均對數概率計算:a'>k, fk ~ πθ(·|a<k; ak)

用于探索和利用的重采樣:基于前瞻技術,Genius通過在分布Fk上采樣來為當前時間戳k選擇步驟ak(m):{ak(m)}m=1^M ~ Categorical(Fk)

這樣,我們可以保持M個束用于下一步的探索。每個選定步驟ak(m)的Q值定義為前瞻分數:Qk(m) := fk(m)

除了探索外,Genius還利用每個時間戳k處的整個響應序列Tk=(a<k, ak, a'>k)進行優化。為了鼓勵多樣性并避免在類似響應上過擬合,我們基于分布Fk引入重采樣策略。

優勢和數據構建:由于推理序列是從不同的束完成的,僅用前瞻分數fk評估每個步驟是不夠的。因此,Genius為正面和負面響應序列導出優勢值Ak:Ak^w = fk^w - Qk-1^w, Ak^l = fk^l - Qk-1^l

從方程中可以看出,前瞻分數通過前一步的Q值進行校準。

優勢校準優化

給定構建的偏好對,我們可以通過強化學習優化LLM。還有兩個關鍵步驟未解決:(i)制定自我獎勵以進行偏好優化;(ii)導出優化目標。

將自我獎勵制定為偏好:基于Bradley-Terry模型,偏好的測量可以表示為:p*(T^w ? T^l|x) = σ(r*(x,T^w) - r*(x,T^l))

其中r*(T|x)表示最優獎勵函數,σ(·)表示sigmoid函數。在DPO的背景下,策略LLM πθ被用作隱式獎勵模型,自我獎勵函數φ建模為:φ(x,T) ∝ β·log(πθ(T|x)/πref(T|x))

ACO損失函數:在無監督設置下,訓練對是基于前瞻分數分布采樣的,這會在優化過程中引入噪聲。上述自我獎勵公式以相同的尺度處理每個偏好對,難以檢測異常并提高魯棒性。因此,我們提出使用計算的優勢值A來校準自我獎勵函數φ,為負面響應序列的自我獎勵添加松弛項w(x,A):

φl(x,T^l) = β·w(x,A)·log(πθ(T^l|x)/πref(T^l|x))

w(x,A) = clip(exp(-(A^l-A^w)/α), 1)

其中A^l-A^w表示負面步驟和正面步驟帶來的優勢差異,α是控制松弛項尺度的超參數。

將自我獎勵函數φw和φl代入方程并使用負對數似然形式優化,得到ACO損失:

LACO = -E(x,T^w,T^l)~D log σ[β·log(πθ(T^w|x)/πref(T^w|x)) - β·clip(exp(-(A^l-A^w)/α), 1)·log(πθ(T^l|x)/πref(T^l|x))]

實現細節

訓練語料庫

訓練查詢分別來自兩個通用語料庫:Magpie和OpenHermes-2.5。考慮到計算成本,研究者從Magpie隨機選擇25K查詢,從OpenHermes-2.5選擇32K查詢,分別用作自訓練的來源。

基礎LLM

在主要實驗中,研究者使用LLaMA3.1-8B-Instruct作為骨干。為驗證泛化能力,還將自訓練方法應用于Qwen2.5-Instruct系列模型,包括3B和7B變體。

訓練和推理設置

對于前瞻采樣配置,設置M=2,N=4,K=4。基于此,Magpie和OpenHermes2.5的訓練對總數分別為100K和128K。推理過程由vLLM引擎加速。

與其他方法的比較

研究者將Genius與多種基線方法進行了比較:

  1. 需要監督的方法
  • SFT:給定輸入查詢和標記響應對LLM進行微調
  • SPIN:通過類似DPO的目標,迭代細化模型生成的響應與標記響應
  1. 只需無監督查詢的方法
  • STaR:通過微調從自構建響應持續引導
  • CoH:通過自我提示獲取正面和負面響應,并使用DPO損失函數優化LLM
  • Self-Rewarding:利用LLM自身作為評判者為自生成的響應打分,然后使用DPO損失在構建的偏好對上優化LLM
  • ScPO:生成多個軌跡并用自一致性標記偏好

實驗結果表明,Genius在所有評估基準上一致優于這些強基線方法。

消融研究:驗證核心貢獻

為了揭示Genius核心貢獻的有效性,研究者分別對"采樣-獎勵"策略和優化目標進行了消融研究。

采樣策略消融

消融前瞻模塊導致平均性能下降3.17%-3.25%,說明前瞻采樣策略緩解了語言模型生成的短視性,前瞻分數的使用優化了步驟值的自我獎勵。將"采樣"替換為貪婪選擇也導致顯著下降,驗證了"重采樣"策略在探索與利用之間取得了平衡。

優化方法消融

研究者比較了各種優化方法,包括DPO、SimPO、IPO、ROPO和SFT。在這些流行方法中,ACO損失函數脫穎而出,在7個推理基準上顯示出顯著的平均性能改進。與魯棒優化策略ROPO相比,ACO更適合自訓練場景。

潛在應用與未來展望

Genius為LLM推理能力的后訓練提供了一個獨特的視角:LLM可以使用通用查詢自我改進其一般推理能力,而無需任何形式的外部監督。僅使用25K無監督通用查詢,Genius就令人驚訝地提高了多個推理基準的平均性能>7%。研究者還表明,通用查詢的擴展規律隨著訓練步驟的增加而持續改善。

考慮到可用的通用數據豐富,這種擴展可以顯著增強推理能力,并進一步推動推理擴展規律的邊界。Genius為實現基于通用查詢且無需監督的自我改進推理邁出了重要的第一步,鑒于通用查詢的廣泛可用性,它徹底改變了推理的擴展規律。

結論

本文聚焦于解決增強LLM推理的挑戰性和關鍵任務,而無需依賴任何外部監督。提出的Genius框架是一個可泛化且純無監督的自訓練框架,解決了幾個關鍵技術挑戰:(1)如何采樣響應;(2)如何在沒有外部輔助的情況下自我獎勵響應;(3)如何使用自策劃的數據進行魯棒優化。

大量實驗表明,Genius不僅顯著提升了LLM的推理能力,還在通用領域保持了性能穩定。擴展規律曲線的分析揭示了進一步擴展的巨大潛力,為LLM推理能力的自我提升開辟了新的研究方向。

GitHub:???https://github.com/xufangzhi/Genius???

論文:????https://arxiv.org/abs/2504.08672???

本文轉載自??頓數AI???,作者:可可


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产视频久久 | 亚洲人成人一区二区在线观看 | 久久综合爱 | 久久精品国产一区 | 国产精品日韩一区二区 | 国产99久久精品一区二区永久免费 | 亚洲一区二区三区在线播放 | 黄色在线观看网址 | 日韩成人免费视频 | 国产精品99一区二区 | 欧美激情视频一区二区三区在线播放 | 欧美一区二区三 | 亚洲人成网亚洲欧洲无码 | 91精品中文字幕一区二区三区 | 国产精品不卡一区 | 激情影院久久 | 免费观看av| 久久这里只有精品首页 | 颜色网站在线观看 | 天天躁日日躁狠狠躁白人 | 国产91丝袜在线熟 | 在线视频一区二区 | 九九热精品在线 | 亚洲欧洲小视频 | 偷拍亚洲色图 | 免费看的av| 国产福利91精品 | 人人干人人干人人干 | 91精品国产综合久久国产大片 | 羞羞视频免费在线 | 日韩在线播放一区 | 91中文视频 | 视频1区 | 成人免费视频在线观看 | 欧美精三区欧美精三区 | www.中文字幕 | www.亚洲一区二区三区 | 国产99久久精品一区二区300 | 综合色导航| 欧美一区二区在线观看 | 成人不卡 |