成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

SWEET-RL:基于訓練時信息的多輪LLM代理強化學習框架

人工智能
SWEET-RL(Step-WisE Evaluation from Training-time information,基于訓練時信息的逐步評估)是多輪大型語言模型(LLM)代理強化學習領域的重要技術進展。

SWEET-RL(Step-WisE Evaluation from Training-time information,基于訓練時信息的逐步評估)是多輪大型語言模型(LLM)代理強化學習領域的重要技術進展。該算法相較于現有最先進的方法,成功率提升了6%,使Llama-3.1-8B等小型開源模型能夠達到甚至超越GPT-4O等大型專有模型的性能水平。本文將深入分析SWEET-RL如何改進AI代理在復雜協作任務中的訓練方法。

LLM代理與多輪交互機制

LLM代理是經過特定任務微調的大型語言模型,能夠作為決策實體與環境或人類進行交互以完成預定目標。多輪交互過程本質上是一系列連續的信息交換,類似于結構化對話,每個交互步驟都朝著最終解決方案遞進。這種交互模式可類比于協作規劃過程:例如在共同規劃旅行時,一方提出目的地建議,另一方提出問題或顧慮,然后初始建議被逐步完善直至形成完整計劃。在此類情境中,代理需要學習如何有效貢獻,而反饋往往僅在整個交互序列結束時才能獲得,這顯著增加了訓練的復雜性。

強化學習在此情境中發揮關鍵作用,它使代理能夠通過試錯方法進行學習,以最大化累積獎勵。然而,多輪交互環境中的傳統強化學習面臨信用分配問題——即難以準確判定長期序列中哪些特定行動導致了最終的成功或失敗。對于已經通過大規模文本數據預訓練的LLM而言,這一挑戰尤為明顯,因為它們需要在保持通用泛化能力的同時適應特定任務的要求。

ColBench:協作推理任務的評估基準

ColBench是專為驗證LLM代理在協作產物創建過程中的多輪強化學習算法而設計的基準。該基準主要關注后端編程和前端設計兩個關鍵領域,遵循以下核心原則:

ColBench確保任務具有足夠的復雜性,要求代理具備推理和泛化能力,從而真實反映實際應用場景。同時,它采用LLM作為人類模擬器和功能評估器,實現了低開銷的快速原型設計。

在后端編程任務中,代理最多可與人類模擬器進行10輪交互,從高級需求描述和函數簽名開始,最終通過通過全部10個單元測試(二元獎勵制:0或1)評估性能。該數據集包含10,000個訓練任務和1,000個測試任務,以及來自Llama-3.1-8B/70B-Instruct的15,000個離線交互軌跡。前端設計任務則要求代理設計網頁界面,通過計算與參考設計的余弦相似度評估效果,包含10,000個訓練任務和500個測試任務,以及來自Llama-3.1-8B和Qwen2-VL-72B的6,000個交互軌跡。

通過與現有多輪LLM代理基準的比較可知,ColBench是唯一同時滿足三個關鍵標準的評估框架:1)具備充分的任務多樣性,確保強化學習訓練不會過度擬合;2)擁有足夠的任務復雜性,能夠挑戰代理的推理和泛化能力;3)工程開銷最小化,適合快速研究原型開發。

多輪LLM代理面臨的核心挑戰

在當前快速發展的AI技術生態中,構建高效多輪LLM代理是最具挑戰性的前沿研究領域之一。這類代理必須能夠參與持續的交互過程,做出連貫一致的決策序列,同時保持對長期目標的導向性。傳統強化學習方法在應對此類復雜性時面臨諸多困難,主要體現在三個方面:跨回合的信用分配問題、對不同任務的泛化能力,以及如何高效利用有限訓練數據。

SWEET-RL作為一種創新解決方案,通過根本性改變LLM代理在協作推理任務中的訓練方法,有效應對了上述挑戰。

圖左展示了ColBench框架概覽,包括后端編程和前端設計兩個評估任務,支持在真實環境中對代理多輪強化學習算法進行低成本且可靠的評估。圖右闡述了SWEET-RL的核心理念,即利用額外的訓練時信息結合適當的Bradley-Terry(BT)目標函數實現有效的信用分配。

SWEET-RL的技術創新:核心組件與架構

非對稱Actor-Critic結構

SWEET-RL的核心創新在于其非對稱actor-critic架構,該架構從根本上改變了代理從經驗中學習的方式:

Critic(評估器)可以訪問額外的訓練時信息,從而提供更精確的行動評估,實現更有效的跨回合信用分配。而Actor(策略網絡)則在有限觀察條件下運作,根據交互歷史做出決策,保持在實際應用場景中的泛化能力。

這種非對稱設計使SWEET-RL能夠同時獲得兩種優勢:Critic在訓練階段的全面深入理解能力,以及Actor在實際部署中的適用性。

創新的優勢函數參數化

SWEET-RL引入了一種新型優勢函數參數化方法,顯著區別于傳統強化學習方法。該方法直接建模優勢函數,與LLM預訓練目標保持一致,提高了訓練穩定性和泛化能力,同時增強了信用分配效率。

兩階段訓練流程

該算法實現了精心設計的兩階段訓練過程:

第一階段:回合式Critic訓練 - 使用Bradley-Terry目標函數訓練Critic,利用訓練時信息進行準確評估,根據偏好對優勢函數進行優化。

第二階段:策略改進 - 利用訓練好的Critic指導策略更新,實施直接偏好優化的變體算法,確保學習過程穩定高效。

SWEET-RL訓練流程概述。在宏觀層面,我們首先應用Bradley-Terry目標函數直接訓練一個能夠訪問額外訓練時信息的逐步優勢函數。優勢函數訓練完成后,通過將其作為每個回合的獎勵模型執行策略改進。

實驗性能與應用效果

后端編程任務性能

SWEET-RL在后端編程任務中展現出卓越性能,達到了40.4%的成功率,而多輪DPO方法僅為34.4%;單元測試通過率達到56.8%,顯著高于競爭方法的48.0%。

前端設計任務性能

在前端設計場景中,SWEET-RL同樣取得了顯著進步,與參考解決方案的余弦相似度達到77.7%,對基線方法的勝率為48.2%。

ColBench基準上不同LLM和多輪強化學習算法的性能比較。SWEET-RL相較于其他多輪強化學習算法實現了超過6%的性能提升,使Llama-3.1-8B-Instruct模型能夠達到與更大規模專有模型相當的性能水平。

技術優勢與創新特點

增強的信用分配機制

SWEET-RL的創新信用分配方法解決了多輪強化學習中最具挑戰性的問題之一,通過有效利用訓練時信息,提供準確的回合級獎勵信號,減少學習信號的方差。

優化的泛化能力

該算法通過與LLM預訓練目標保持一致性,展現出卓越的泛化能力,在未見過的任務上表現強勁,并能隨訓練數據增加而有效擴展。

計算效率優化

SWEET-RL在實現性能提升的同時保持了較高的計算效率,通過直接優勢函數建模、穩定的訓練動態以及有效利用訓練數據實現這一目標。

性能比較圖表:(a)展示了不同步進獎勵模型在后端編程任務上Best-of-N采樣的擴展曲線。結果表明SWEET能夠在回合基礎上最優判斷高質量行動,從而實現Best-of-N采樣的最佳擴展性能。需注意,此曲線區別于測試時擴展曲線,因為SWEET利用了額外的訓練時信息。(b)展示了不同多輪強化學習算法在后端編程任務上隨微調數據量增加的性能擴展情況。盡管SWEET-RL初期需要更多數據以學習可靠的Critic,但它能迅速趕上并最終實現更優的收斂性能。

實驗表明,利用訓練時信息顯著增強了信用分配能力,這一點從SWEET-RL與不使用訓練時信息的SWEET-RL之間的性能差距得到證實。雖然相對于固定的LLM-as-a-Judge的Best-of-N采樣可在零樣本成功率上帶來一定改進,但這種改進有限。從質性分析看,固定的LLM評判器容易被響應的長度和格式影響,而未能真正關注其對任務成功的實際效用。最后,盡管在深度強化學習文獻中較為常見,但價值函數的使用與SWEET-RL相比未能實現相當的擴展性能,這凸顯了SWEET-RL在強化學習算法選擇上的精心設計,同時表明訓練價值函數的常規做法可能在未見過任務上泛化能力較差。

總結

SWEET-RL代表了多輪LLM代理訓練技術的重大進展。其在信用分配、優勢函數參數化和非對稱actor-critic結構方面的創新為該領域確立了新的基準。該算法使小型模型能夠實現與大型專有模型相當的性能,成為AI能力民主化進程中的關鍵一步。

展望未來,SWEET-RL的影響可能超越其當前應用范圍,影響更復雜AI系統的開發,特別是需要復雜推理和協作能力的系統。其成功證明了強化學習的持續發展價值及其在構建更強大、更高效AI代理中的重要性。

SWEET-RL通過技術創新、實用性和卓越性能的結合,成為人工智能領域的關鍵發展,可能深刻影響未來多輪LLM代理和強化學習的研究與發展方向。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2025-03-21 13:00:54

2025-05-28 02:25:00

2024-08-28 13:53:42

多代理強化學習機器人

2021-07-22 15:25:14

開源技術 框架

2024-10-12 17:14:12

2023-05-04 15:53:34

強化學習開發

2025-05-12 08:24:01

2020-12-23 06:07:54

人工智能AI深度學習

2024-03-19 00:15:00

機器學習強化學習人工智能

2020-06-05 08:09:01

Python強化學習框架

2020-04-15 16:44:38

谷歌強化學習算法

2025-05-06 08:40:00

2025-06-05 08:40:00

2023-07-20 15:18:42

2022-11-02 14:02:02

強化學習訓練

2020-06-05 14:49:51

強化學習算法框架

2025-04-22 09:12:00

AI模型數據

2025-02-13 09:10:00

2023-08-28 06:52:29

2021-10-12 10:28:34

自動駕駛數據人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.yw193.com | 一区二区三区国产 | 精品日韩| 亚洲二区在线观看 | 在线观看成年人视频 | 人人玩人人干 | 九色av| 国产精品福利在线观看 | 九九精品在线 | 欧美在线视频网站 | 性一交一乱一伦视频免费观看 | 国产91 在线播放 | 国产这里只有精品 | 欧产日产国产精品视频 | 美女精品一区 | 国内91在线 | 亚洲欧美视频在线观看 | 日韩精品在线观看一区二区 | 国产一二区免费视频 | 国产在线91| 精品一区二区三区在线观看国产 | 狠狠操电影 | 国产精品一区二区av | av网站在线看 | 欧美日韩精品中文字幕 | 精品国产乱码久久久久久牛牛 | www.嫩草| 亚洲精品视频在线看 | 超碰在线97国产 | 亚洲国产精品网站 | 99福利 | 亚洲精品68久久久一区 | 黄色片在线网站 | www操操 | 国产中的精品av涩差av | 免费成人高清在线视频 | 亚洲国产精品99久久久久久久久 | 亚洲综合三区 | 久久国内精品 | 国产成人精品午夜视频免费 | 亚洲毛片 |