成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

突破性進展:NVIDIA推出Nemotron-Research-Tool-N1,強化學習驅動的工具型語言模型超越GPT-4o

發布于 2025-5-27 07:00
瀏覽
0收藏

引言:重新定義工具使用型語言模型的訓練范式

大型語言模型(LLM)的工具使用能力已成為擴展其功能邊界的關鍵戰略。傳統方法通常依賴監督微調(SFT)來確保工具調用的正確性,或從更強大的模型中提煉推理軌跡。然而,這些方法各有局限:要么完全忽略推理過程,要么產生僅能模仿表面模式的偽推理,限制了模型的泛化能力。

近日,NVIDIA研究團隊發布了一項突破性成果——Nemotron-Research-Tool-N1(簡稱Tool-N1),這是一系列基于強化學習訓練的工具使用型語言模型。該研究受到DeepSeek-R1通過規則基礎的強化學習成功引出推理能力的啟發,采用類似的訓練范式,通過二元獎勵機制來評估工具調用的結構有效性和功能正確性,而無需標注的推理軌跡。

這種輕量級的監督方式使模型能夠自主內化推理策略,在BFCL和API-Bank基準測試中,基于Qwen-2.5-7B/14B-Instruct構建的Tool-N1-7B和Tool-N1-14B取得了令人矚目的成果,超越了包括GPT-4o在內的多個強大基線模型。

突破性進展:NVIDIA推出Nemotron-Research-Tool-N1,強化學習驅動的工具型語言模型超越GPT-4o-AI.x社區

工具學習的問題定義

在正式介紹Tool-N1之前,我們首先明確工具學習的問題定義。考慮一個大型語言模型(LLM)和一組外部工具集合??={zi},模型可以訪問這些工具。每個工具zi可以表示為一個三元組(ni,di,ki),包含工具使用的基本信息:ni表示工具的名稱,di提供工具的自然語言描述,ki指定工具的輸入參數說明。

模型的目標是根據策略π響應用戶查詢。為實現這一目標,LLM可能在交互過程中發出多個帶有適當參數的工具調用。在任何決策步驟t,LLM接收兩種類型的輸入:(1)歷史上下文ct,由所有前面的工具調用和觀察對組成;(2)當前可用的工具集??。然后,LLM必須決定下一步行動。

形式上,決策過程定義為:

π(ct,??~)→at, s.t. at???

其中at表示在步驟t選擇的操作,對應從可訪問工具子集??~中抽取的一個或多個工具調用。ct表示歷史上下文。具體來說:

{ at={z0(p0),…,zm(pm)}, ct=(a0,o0,…,at,ot) }

其中每個zm表示調用的第m個工具,pm是其對應的參數。m的值表示在時間t進行的工具調用數量。ot表示采取操作at后的觀察結果。工具學習的最終目標是使LLM具備一個泛化策略π,通過產生一系列連貫的操作-觀察對(at,ot)來有效解決用戶查詢。

Nemotron-Research-Tool-N1的創新方法

Nemotron-Research-Tool-N1是一個基于R1風格強化學習框架設計的通用工具使用型語言模型。Tool-N1構建于GRPO強化學習算法之上,旨在提高模型在復雜場景中的工具調用能力,特別是在LLM需要使用一組可訪問工具解決查詢的情況下。

形式上,給定歷史上下文ct和當前可用工具集??,模型生成一組候選響應[O1,O2,...,O?]。每個響應包含(1)文本推理和(2)相關聯的操作an。這些響應使用獎勵函數進行評估,產生一個獎勵集{r?,r?,...,r?}。然后使用GRPO算法估計優勢并更新策略模型,受KL散度約束。第i個響應的相對優勢Ai計算如下:

Ai = (ri - mean({r?,r?,...,r?})) / std({r?,r?,...,r?})

其中mean和std分別表示獎勵的均值和標準差。

數據準備

許多先前的工作集中于收集大規模工具調用軌跡,然后通過監督微調(SFT)來提高LLM的工具使用能力。這些數據集通常由自然語言用戶查詢Q和一系列地面真實工具調用步驟(a?,o?,...,a?,o?)組成。然后訓練模型根據觀察到的軌跡預測每個后續操作at。然而,SFT往往表現出有限的泛化能力,因為模型傾向于記憶訓練軌跡,而不是發展穩健的內在推理能力。

為充分利用社區中可用的SFT數據,研究團隊統一并預處理了來自xLAM和ToolACE子集的數據,這些數據提供了單輪和多輪合成工具調用軌跡。由于這些數據集是由潛在不穩定的LLM生成的,它們通常包含不一致性和不適合GRPO訓練的非結構化格式。研究團隊通過過濾掉包含無效工具調用的樣本來標準化數據集,特別是那些涉及候選工具列表中不存在的工具的樣本。

可用工具從系統提示中提取,候選工具和地面真實工具調用都解析為結構化字典格式。丟棄了JSON解析失敗或包含格式不一致的實例。這種預處理產生了適合強化學習的干凈一致的數據集。對于來自ToolACE子集的多輪數據,研究團隊進一步將每個軌跡分割成多個單步預測實例,其中每個實例包含一個目標工具調用,前面的步驟被視為上下文。使用R1風格的GRPO訓練LLM,根據這些上下文信息和提供的工具預測每個工具調用步驟。

思考模板

遵循Guo等人(2025)的方法,研究團隊采用了一個輕量級提示模板來引出LLM的工具調用。該提示明確指示模型在<think>...</think>標簽內生成中間推理,然后在<tool_call>...</tool_call>標簽內封裝工具調用。

突破性進展:NVIDIA推出Nemotron-Research-Tool-N1,強化學習驅動的工具型語言模型超越GPT-4o-AI.x社區

這個模板背后的設計理念是最小化對過于僵化格式規則的依賴,這可以降低過擬合特定提示模式的風險。通過允許模型在表達其推理方面有更大的靈活性,目標是促進跨多樣化工具使用場景的更強泛化能力。此外,在訓練期間使用這種輕量級提示設計使得生成的模型能夠更容易與更復雜的提示策略集成。

獎勵建模

按照數據準備中描述的方法,研究團隊構建了一個訓練數據集,其中每個地面真實工具調用表示為結構化字典。這種格式使得在強化學習過程中能夠可靠地驗證工具名稱和參數-值對,而不僅僅是簡單的字符串匹配。利用這種結構,研究團隊定義了一個R1風格的二元獎勵函數,共同評估推理格式的正確性和工具調用的準確性,包括其名稱和參數。

格式檢查:遵循先前的工作,研究團隊在訓練期間納入格式檢查,以驗證模型的輸出是否符合預期的結構約定——具體來說,推理是否封裝在<think>...</think>標簽內,工具調用是否正確放置在<tool_call>...</tool_call>標簽內。這種結構約束鼓勵模型在工具調用之前進行明確的推理,而不是直接跳到最終答案。通過強制格式遵守,目標是培養模型的內在推理能力,這可能潛在地有助于改善泛化——特別是對于分布外輸入。

工具調用檢查:研究團隊還檢查工具調用本身的正確性。工具調用輸出被解析為字典,使得能夠與地面真實調用進行精確匹配。這涉及檢查預測的工具名稱是否與地面真實相匹配,以及所有必需的參數是否存在且值正確。這種嚴格的匹配標準確保模型學習生成功能精確且可執行的工具調用。與SFT中的下一個標記預測邏輯相比,這種基于字典的匹配引入了更大的靈活性。它允許參數順序變化而不受懲罰,鼓勵模型關注工具調用的底層語義,而不是表面級記憶。這種設計促進了對工具使用的更深入理解,并支持更好的泛化。

二元獎勵定義:給定上下文ct和預測操作at,研究團隊定義了一個二元獎勵函數r(ct,at)∈{0,1},當滿足以下兩個條件時,分配獎勵1:(1)格式正確性:模型輸出符合結構格式,即包含<think>...</think>和<tool_call>...</tool_call>標簽;(2)工具調用正確性:預測的工具調用at在工具名稱和所有參數鍵值對方面與地面真實調用at*完全匹配。

r(ct,at) = { 1, 如果 FormatCorrect(at) ∧ ToolCallMatch(at,at*) 0, 否則 }

其中FormatCorrect(at)在輸出正確包裝在兩個所需標簽中時返回true,ToolCallMatch(at,at*)在at在結構和內容上與地面真實工具調用at*完全匹配時返回true。

實驗結果與分析

研究團隊進行了廣泛實驗,證明了所提方法的優越性。實驗主要在BFCL和API-Bank兩個典型基準測試上進行評估。

實驗設置

數據集:主要使用ToolACE和xLAM的子集作為訓練數據集。ToolACE涵蓋了廣泛的工具調用場景,包括具有多個候選工具和并行函數調用的示例,覆蓋了26,507個多樣化工具的池。相比之下,xLAM專注于單輪函數調用,包含通過APIGen收集的60,000個實例。

模型:除非另有說明,研究團隊使用Qwen2.5-7B/14B-Instruct作為主要骨干模型。為評估方法的泛化能力,還對替代骨干模型進行了評估,包括來自LLaMA家族的多個變體。實驗中,研究團隊與通用開源模型(如GPT系列和Gemini-2.0)以及專門的工具調用模型(包括ToolACE-8B、xLAM-2和Hammer2.1)進行了比較。

基準測試:主要評估單輪工具調用查詢的性能。在幾個代表性基準測試上評估了方法,包括Berkeley Function Call Leaderboard (BFCL)和API-Bank。對于BFCL,在Non-live和Live子集上進行了評估,分別對應合成和真實世界數據。每個子集包括四個類別:Simple、Multiple、Parallel和Parallel Multiple。Simple和Multiple場景都涉及單個工具的調用,Multiple類別具有多個候選工具。相比之下,Parallel和Parallel Multiple場景需要同時調用多個工具。對于API-Bank,排除了多輪案例。所有基準測試的性能都以準確率報告。

其他實現細節:所有實驗使用開源強化學習庫Verl進行。訓練使用1024的批量大小和1×10??的學習率。溫度固定在0.7。熵系數設置為0,因為觀察到引入熵對訓練期間的探索產生負面影響。KL散度損失系數在所有實驗中設置為1×10?3。所有訓練運行在由4個節點組成的集群上執行,每個節點配備8個NVIDIA H100 80GB GPU。

主要結果

BFCL基準測試結果:實驗結果清楚地表明,所有Tool-N1-7B/14B模型都取得了最佳的總體性能,超過了最先進的閉源模型(如GPT-4o)和專門的微調模型(包括xLAM-2-70B和ToolACE-8B)。值得注意的是,訓練的工具調用推理模型顯著優于在相同數據源上訓練的監督微調基線(即ToolACE和xLAM系列)。結果證明,與標準監督微調相比,R1風格的強化學習為增強LLM的工具調用能力提供了更有效的范式。

突破性進展:NVIDIA推出Nemotron-Research-Tool-N1,強化學習驅動的工具型語言模型超越GPT-4o-AI.x社區

API-Bank基準測試結果:為提供更全面的評估,研究團隊還在API-Bank基準測試上進行了實驗。Tool-N1-7B和Tool-N1-14B模型在大多數情況下都始終優于基線。值得注意的是,Tool-N1-7B/14B的準確率分別比GPT-4o高4.12%和5.03%,清楚地證明了該方法的有效性。

深入分析

可擴展性和泛化能力

可擴展性:擴展定律,它描述了模型大小和性能之間的關系,在理解訓練方法的有效性方面起著關鍵作用。研究團隊通過評估一系列模型大小來評估所提訓練方法的擴展行為,包括來自Qwen2.5-Instruct系列的0.5B、1.5B、3B、7B和14B。為進行比較,還報告了沒有任何額外訓練的原始指令調整模型的性能。

研究團隊報告了BFCL基準測試的Live和Non-Live類別的平均性能。如預期的那樣,較大的模型在兩種評估設置中始終優于較小的模型。值得注意的是,對于較小的模型(0.5B和1.5B),后訓練的性能改進有限,而較大的模型表現出顯著的增益。這些發現表明,R1風格的訓練方法隨著模型大小的增加而更有效地擴展。

泛化能力:研究團隊進一步評估了不同骨干LLM的影響,以研究所提訓練方法的泛化能力。除了Qwen系列,還包括使用基于LLaMA的模型的實驗:LLaMA3-8B-Instruct和LLaMA3.1-8B-Instruct。這些評估在BFCL基準測試上進行。研究發現,在相同的模型規模下,Qwen2.5-Instruct顯著優于兩種LLaMA變體。這種優勢可能是由于Qwen固有的更強推理能力,正如Gandhi等人(2025)先前觀察到的那樣。因此,R1風格的訓練范式能夠在應用于Qwen時引出更好的性能。

消融研究

獎勵設計的消融:為評估獎勵粒度如何影響模型行為,研究團隊在兩種獎勵方案下評估了Tool-N1-7B:細粒度和二元。細粒度設置提供部分獎勵,即使最終函數調用不正確,正確的推理格式也提供0.2的獎勵,匹配函數名稱再提供0.2的額外獎勵。相比之下,二元設置僅在所有組件都正確時給予1.0的獎勵,包括推理、函數名稱和參數。Tool-N1在二元獎勵下始終取得更好的性能,特別是在Live子集上(80.38%對76.61%),這涉及更現實的輸入。

突破性進展:NVIDIA推出Nemotron-Research-Tool-N1,強化學習驅動的工具型語言模型超越GPT-4o-AI.x社區

研究團隊將這歸因于減少了獎勵黑客行為:在細粒度方案下,模型可能過度擬合表面線索,如格式化或部分匹配,而不確保完全執行正確性。此外,在二元設置中,觀察到移除推理格式約束顯著損害了性能(從80.38%下降到76.24%)。這突顯了結構化推理在引導Tool-N1-7B實現可靠和可泛化工具使用方面的關鍵作用,特別是在復雜的真實世界場景中。

訓練數據組成的消融:研究團隊還調查了不同數據組成策略如何影響BFCL基準測試的性能。實驗使用Tool-N1-7B模型進行。主要發現如下:(1)與原始模型(Qwen2.5-7B-Instruct)相比,R1風格的訓練顯著增強了工具調用能力;(2)ToolACE數據在實時設置中產生了特別強的改進;(3)與使用相同數據進行SFT訓練的模型相比,R1風格的訓練始終產生更好的性能。具體來說,僅在xLAM數據上訓練的Tool-N1-7B模型比xLAM-8B SFT模型表現好6.36%,僅在ToolACE子集上訓練的Tool-N1-7B模型比ToolACE-8B SFT模型表現好1.62%,盡管只使用了數據的一個子集。

突破性進展:NVIDIA推出Nemotron-Research-Tool-N1,強化學習驅動的工具型語言模型超越GPT-4o-AI.x社區

SFT還是RL?:研究團隊還進行了一項系統研究,比較了純RL、監督微調(SFT)和常用的SFT-then-RL流程。使用5,518個提煉的推理軌跡進行分析,發現:(1)盡管在許多領域,對推理軌跡進行SFT然后進行RL的組合通常被認為是最佳實踐,但在相等的數據預算下,在工具調用設置中沒有觀察到性能改進;(2)在相等的數據預算下,純RL優于Reason-SFT和No-Reason SFT;(3)有趣的是,No-Reason SFT的表現僅比Reason-SFT略差,表明在SFT期間提供推理軌跡提供的額外好處有限。

突破性進展:NVIDIA推出Nemotron-Research-Tool-N1,強化學習驅動的工具型語言模型超越GPT-4o-AI.x社區

結論與未來展望

Nemotron-Research-Tool-N1引入了一系列使用基于規則的強化學習訓練的工具使用型語言模型。與依賴監督微調的先前方法不同,Nemotron-Research-Tool-N1利用僅監督最終答案和推理結構格式的獎勵函數。這使模型能夠在不需要注釋推理軌跡的情況下學習有效的推理策略。

實驗結果表明,Nemotron-Research-Tool-N1在多個基準測試中始終優于現有基線,包括BFCL和API-Bank。此外,當在相同數據上訓練時,使用R1風格強化學習的模型比其SFT訓練的對應物實現了更優越的性能,肯定了基于強化的訓練相對于SFT的好處。

這項研究為工具使用型語言模型的訓練提供了一個新的范式,強調了強化學習在培養模型推理能力方面的潛力。未來的研究方向可能包括探索更復雜的獎勵函數、集成多模態工具和擴展到更廣泛的應用領域。

論文:???https://arxiv.org/abs/2505.00024v1???

GitHub:???https://github.com/NVlabs/Tool-N1??

本文轉載自???頓數AI???,作者:蔥蔥

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 中文字幕爱爱视频 | 亚洲成人av一区二区 | 欧美日韩亚洲一区 | 国产电影一区二区在线观看 | 97人人草 | 久久久国产精品 | 国产成人精品一区二 | 欧美综合在线视频 | 一区中文字幕 | 日韩精品一区二区三区在线播放 | 精产嫩模国品一二三区 | 国产免费视频 | 国产精品视频播放 | 精品精品 | 视频在线一区二区 | 国产精品揄拍一区二区 | 国产在线精品一区二区三区 | 精品视频一区二区 | 香蕉久久a毛片 | 色约约视频 | 日本人和亚洲人zjzjhd | 1000部精品久久久久久久久 | 国产伦一区二区三区 | 国产一区二区三区色淫影院 | 国产在线视频一区二区董小宛性色 | 久久久久久久香蕉 | 龙珠z国语版在线观看 | 国外成人在线视频 | 91久久久久久久 | 久久国| 国产精品久久久久久久久久 | 国产一级在线 | 91成人| 国产在线精品一区 | 男女羞羞在线观看 | 精品国产欧美一区二区三区成人 | 欧美中文字幕 | 久久久久国产精品一区二区 | 亚洲三区在线观看 | 黄a大片 | 亚洲第一av网站 |