RL 驅動 LLM 智能體：ML-Agent 創(chuàng)新自主機器學習工程

作者：肆零柒 2025-06-10 04:00:00

在機器學習工程領域，自主智能體的研究正逐漸成為焦點。ML-Agent 為這一領域帶來了新思路。它憑借創(chuàng)新的學習型 agentic ML 范式和高效的訓練框架，實現(xiàn)了智能體在自主機器學習中的高效探索與優(yōu)化。

大家好，我是肆〇柒。這兩天看到一篇關于自主進化智能體的論文，本篇就讓我們一起了解一下這個機器學習工程的的研究 ——ML-Agent。在當下，機器學習工程已成為科技創(chuàng)新的關鍵驅動力。然而，傳統(tǒng)機器學習工程模式面臨著諸多困境，它是一個高度復雜且耗費人力的過程，專家研究人員往往需要投入大量時間進行模型架構設計、超參數(shù)調整以及通過反復試驗來優(yōu)化模型，整個流程可能持續(xù)數(shù)天甚至數(shù)月。以開發(fā)一個高性能的語音識別模型為例，研究人員需要手動篩選合適的聲學模型架構、精心調整語言模型的權重，并通過無數(shù)次試驗來驗證模型在不同口音、噪聲條件下的魯棒性和準確性。這種手動試錯的方式不僅浪費了大量的時間和計算資源，而且很難保證模型的最終性能能夠達到預期，嚴重制約了機器學習技術的廣泛應用和快速發(fā)展。所以自主機器學習成為了一個前沿的研究方向。

自主機器學習的目標是構建能夠獨立運作的 AI 系統(tǒng)，這些系統(tǒng)能夠自主地協(xié)調整個機器學習生命周期，從概念設計、代碼實現(xiàn)到模型優(yōu)化，全程無需人工干預。這一愿景的核心是通過自動化和智能化的技術手段，大幅減少人工參與，提高機器學習工程的效率和可擴展性。比如，假設一個智能體能夠自動地根據(jù)給定的語音識別任務描述，生成有效的聲學模型架構，智能調整超參數(shù)，并在運行時根據(jù)實時反饋進行自我改進，這不僅能夠極大地加速語音識別模型的開發(fā)過程，還能使機器學習技術更加普及，讓更多非專業(yè)用戶也能夠利用先進的機器學習算法解決實際問題，從而推動人工智能技術在語音助手、智能客服等眾多領域的廣泛應用。

現(xiàn)有 LLM 智能體的局限性

近年，基于LLM 的智能體在自主機器學習領域取得了顯著的進展，如 AIDE 和 SELA 等智能體。它們能夠利用 LLM 的交互能力、編碼能力和工具調用能力，自動化機器學習流程。然而，這些現(xiàn)有的智能體方法存在一個共同的根本局限性，就是它們依賴于手工提示工程。手工提示工程要求研究人員精心設計提示，以引導 LLM 智能體的行為，這種方式不僅耗時費力，而且嚴重限制了智能體的自動優(yōu)化和跨任務泛化能力。例如，一個專門為圖像分類任務設計的智能體，其提示可能包含了特定的卷積神經網絡架構描述和數(shù)據(jù)增強策略，但當面臨一個全新的文本分類任務時，智能體無法直接將所學的知識遷移到新任務中，因為它的行為模式被提示所限定，缺乏靈活調整和自我優(yōu)化的能力。這種對提示的依賴，使得智能體難以在多樣化的任務場景中實現(xiàn)靈活的策略調整和性能優(yōu)化，極大地限制了自主機器學習技術的發(fā)展和應用。

ML-Agent 的創(chuàng)新與重要性

針對上述問題，ML-Agent 的研究提出了一種全新的學習型智能體自主機器學習（agentic ML）范式。ML-Agent 通過在線強化學習（RL）與 ML 任務環(huán)境進行交互，主動探索不同的策略，積累知識并不斷改進決策。與傳統(tǒng)方法相比，ML-Agent 能夠更加智能地應對各種 ML 任務，實現(xiàn)自動化的策略優(yōu)化和跨任務的知識遷移。ML-Agent 的創(chuàng)新之處在于其獨特的訓練框架，該框架包含三個關鍵組件：探索增強微調、逐步 RL 范式和特定于 agentic ML 的獎勵模塊。這些組件協(xié)同工作，使 ML-Agent 能夠在有限的訓練任務上實現(xiàn)卓越的性能，并展現(xiàn)出強大的跨任務泛化能力。這一突破不僅為自主機器學習領域帶來了新的發(fā)展機遇，也為實現(xiàn)更加智能化、自動化的機器學習工程提供了新的思路和方法，有望推動機器學習技術在更多領域的廣泛應用和深入發(fā)展。

ML-Agent 的研究框架與方法

學習型智能體 ML 范式的提出

ML-Agent 所采用的學習型智能體 ML 范式，徹底改變了傳統(tǒng)自主機器學習的模式。在這種范式下，LLM 智能體不再是被動地執(zhí)行預設的指令，而是通過與環(huán)境的交互，主動地探索和學習最優(yōu)的策略。智能體在每個時間步中根據(jù)當前狀態(tài)（即過去的反饋信息）采取行動（例如，在模型架構中添加批量歸一化層），然后從環(huán)境中接收反饋（例如，代碼執(zhí)行結果或錯誤信息）。通過這種方式，智能體能夠在不斷的試錯過程中，逐步積累經驗，優(yōu)化自己的行為策略。

概述自主機器學習中LLM代理與環(huán)境的交互

這種范式的最大優(yōu)勢在于其靈活性和適應性。智能體可以根據(jù)不同的任務需求，動態(tài)地調整自己的行為模式。例如，在面對一個全新的醫(yī)療影像診斷任務時，智能體能夠自動地識別影像數(shù)據(jù)的特點，并生成相應的模型架構和訓練策略，如選擇合適的卷積神經網絡層數(shù)、濾波器大小以及數(shù)據(jù)增強方法。這種能力使得 ML-Agent 在處理多樣化的機器學習任務時，表現(xiàn)出了先進的智能和效率，能夠快速適應不同領域的應用場景，為機器學習技術的快速落地提供了有力支持。

ML-Agent 訓練框架的三個關鍵組件

探索增強微調

探索增強微調是 ML-Agent 訓練框架的第一個關鍵組件，其核心目的是拓寬智能體的探索范圍，增強其在后續(xù) RL 階段的多樣化策略生成能力。

在具體實施過程中，研究者們首先利用一組快速可執(zhí)行的 ML 任務，生成了大量的候選想法。例如，在一個圖像分類任務中，可能的候選想法包括 “添加 L1 或 L2 權重正則化”、“使用早停法以防止過擬合” 等。對于每個任務，研究者們計算這些想法之間的成對嵌入（embedding）距離。他們采用了基于詞向量的余弦相似度方法來計算嵌入距離。首先將每個想法文本轉化為詞向量序列，然后通過計算序列之間的余弦相似度來衡量它們的語義相似性。接著選擇嵌入距離最大的 10 個想法，以確保想法的多樣性。然后，隨機從中挑選 1 至 3 個想法，將其組合成任務提示。

接下來，由一個由 GPT-4o-mini 驅動的專家智能體與環(huán)境進行交互，使用這些豐富的提示，在 9 個快速可執(zhí)行的 ML 任務上生成專家軌跡。這些軌跡記錄了專家智能體在任務中的每一步操作、觀察結果以及所采取的行動。通過這種方式，研究者們收集了大量的高質量數(shù)據(jù)，用于對 LLM 智能體進行微調。

智能體機器學習訓練框架概述：（1）探索增強的微調，用于創(chuàng)建多樣化的行動池；（2）分步強化學習范式，利用專家軌跡高效收集經驗；（3）針對智能體機器學習的特定獎勵模塊，用于處理各種機器學習反饋和進行任務特定的性能評估

在微調過程中，研究者們采用監(jiān)督微調（SFT）方法，通過最小化專家軌跡與智能體生成的軌跡之間的差異，使智能體能夠學習到專家的策略。這不僅確保了智能體輸出的動作符合格式要求，還使其能夠學習到多樣化的策略，從而在后續(xù)的 RL 階段中進行更廣泛的探索。例如，在一個文本分類任務中，經過探索增強微調的智能體，不僅學會了如何正確地使用 NLTK 庫進行文本預處理（如分詞、去除停用詞和詞干提取），還掌握了一系列不同的特征提取方法（如 TF-IDF、Word2Vec 等）和模型架構（如邏輯回歸、神經網絡等）。這種多樣化的能力為智能體在面對復雜多變的任務時提供了豐富的策略選擇，使其能夠更有效地應對各種挑戰(zhàn)。

逐步 RL 范式

逐步 RL 范式是 ML-Agent 訓練框架的第二個關鍵組件，是為了解決傳統(tǒng) RL 方法在 ML 實驗中的采樣效率低下問題。

在傳統(tǒng)的 RL 方法中，智能體需要執(zhí)行完整的策略軌跡（即從任務描述開始，直到達到最大步數(shù)或時間限制），才能收集到一個樣本進行學習。然而，ML 實驗通常需要幾分鐘到幾小時不等的時間，這使得在線數(shù)據(jù)收集過程極為緩慢，嚴重限制了反饋驅動的訓練樣本數(shù)量。

為了解決這一問題，ML-Agent 采用了一種逐步 RL 范式。在這種范式下，研究者們將目標函數(shù)重新定義為按狀態(tài)分布采樣的逐步更新。他們首先根據(jù)專家軌跡計算出一個固定的狀態(tài)分布。計算方法是統(tǒng)計專家智能體在各個狀態(tài)下的訪問頻率，并將其歸一化為概率分布。然后從這個分布中采樣狀態(tài)，并在這些采樣狀態(tài)下評估智能體的單步行動。

在保留任務和外推任務上，分步式強化學習（Step-wise RL）都比基于回合的強化學習（Episode-wise RL）更高效。這兩種強化學習訓練方法都從MLAgent-SFT開始。紅色點之間的間隔為5步，而藍色三角形之間的間隔為1步

這種方法的優(yōu)勢在于，它將狀態(tài)采樣過程與模型的強化學習過程解耦。研究者們可以直接從預收集的狀態(tài)池中采樣狀態(tài)，而無需在訓練過程中進行昂貴的在線采樣。這不僅顯著降低了采樣成本，還提高了訓練效率，使智能體能夠在更短的時間內學習到更多的知識。例如，在一個圖像生成任務中，逐步 RL 范式允許智能體在每個訓練步驟中只關注單個狀態(tài)下的行動優(yōu)化，而不是等待整個訓練過程的完成。這使得智能體能夠更快地學習到如何調整模型的超參數(shù)（如學習率、批量大小等），以提高生成圖像的質量，從而加速了模型的收斂過程。

特定于 agentic ML 的獎勵模塊

特定于 agentic ML 的獎勵模塊是 ML-Agent 訓練框架的第三個關鍵組件，其設計目標是將各種復雜的執(zhí)行結果轉換為統(tǒng)一的標量值，為 RL 優(yōu)化提供一致且有效的獎勵信號。

在自主機器學習過程中，智能體可能會遇到各種不同的執(zhí)行結果，包括任務特定的性能指標（如分類準確性、回歸均方誤差等）、運行時錯誤（如內存不足、編譯失敗等）以及邊界情況（如資源耗盡、時間限制等）。為了使智能體能夠從這些不同的反饋中學習，研究者們設計了一個動態(tài)處理這些信號的獎勵模塊。

對機器學習（ML）特定的獎勵模塊進行消融研究，表明三個組成部分的必要性。這三個組成部分分別是歸一化性能獎勵（Rperf.）、格式獎勵（Rformat）和邊緣情況獎勵（Rcorner ）。CIFAR-10和反饋是保留任務，其他則是排除任務。

該獎勵模塊的核心思想是將每種執(zhí)行結果映射到一個統(tǒng)一的標量值。例如：

如果智能體采取了無效的行動（如生成了不符合格式要求的代碼）或收到了錯誤反饋（如編譯失敗），則獎勵值為 0。這懲罰了智能體的錯誤行為，促使其生成正確的格式。
如果智能體采取了有效但非編輯性的行動（如列出文件）或遇到了邊界情況（如內存不足），則獎勵值為 0.5。這承認了行動的有效性，但同時也考慮到了外部約束的影響。
如果智能體成功地應用了一個有效的編輯操作，并且執(zhí)行結果成功（如模型性能得到提升），則獎勵值根據(jù)任務特定的性能指標的改進程度進行計算。獎勵值通過一個縮放因子（根據(jù)任務的基準性能和最佳人類可實現(xiàn)性能進行計算）和一個 sigmoid 函數(shù)（將改進映射到 (0, 1) 區(qū)間）來確定，以激勵智能體實現(xiàn)有意義的性能提升。

比如，在一個語音識別任務中，當智能體成功地優(yōu)化了模型的架構，使得單詞錯誤率降低了 10% 時，獎勵模塊會根據(jù)預定義的縮放因子和 sigmoid 函數(shù)，計算出一個相應的獎勵值。這個獎勵值不僅反映了性能提升的幅度，還考慮到了任務的難度和目標，從而為智能體提供了一個明確的學習信號。通過這種方式，獎勵模塊能夠全面地處理各種執(zhí)行結果，確保智能體在多樣化的 ML 任務中有效地學習和改進，引導智能體朝著最優(yōu)策略不斷進化。

ML-Agent 的實驗設計與結果

訓練設置

在訓練數(shù)據(jù)收集方面，研究者們采用了 GPT-4o-mini 驅動的智能體與 MLAgentBench 環(huán)境進行交互，生成專家軌跡。他們選擇了 9 個 ML 任務，這些任務涵蓋了圖像分類（如 cifar-10、aerial-cactus-identification 等）、表格回歸（如 home-data-for-ml-course、nomad2018-predict-transparent-conductors 等）和文本分類（如 feedback-prize-english-language-learning）等多種類型。對于每個任務，智能體與環(huán)境進行交互，生成了包含 15 步操作和反饋的軌跡，最終收集了 10k 條專家軌跡。

在實驗中使用的所有訓練和測試任務。MLA和MLE分別代表MLAgentbBench和MLE-bench

這些任務的選擇和數(shù)據(jù)收集過程確保了訓練數(shù)據(jù)的多樣性和質量。例如，在圖像分類任務中，智能體需要學習如何調整卷積神經網絡的層數(shù)、濾波器大小等超參數(shù)；在表格回歸任務中，智能體需要掌握特征工程、模型選擇等技能；在文本分類任務中，智能體則需要學習文本預處理、嵌入方法等知識。通過這種方式，研究者們?yōu)?ML-Agent 的訓練提供了豐富的經驗基礎。

在模型訓練方面，研究者們首先對 Qwen2.5-7B 模型進行了監(jiān)督微調（SFT）。他們使用收集到的專家軌跡，通過最小化模型生成的軌跡與專家軌跡之間的差異，使模型能夠學習到專家的策略。在 SFT 階段，研究者們設置了 2 個訓練周期，批次大小為 64，學習率為 2e?5（千問官方文檔中的學習率是 1e-5）。

接下來，研究者們采用基于 PPO（Proximal Policy Optimization）的逐步 RL 方法對模型進行進一步訓練。在 RL 階段，訓練批次大小設置為 256，訓練周期為 1 個。同時，研究者們分別設置了行動者（actor）和評論家（critic）的學習率為 1e?6 和 1e?5，并引入了 KL 散度系數(shù)為 0.001，以控制策略更新的幅度，防止策略在訓練過程中出現(xiàn)劇烈波動。

這些超參數(shù)的設置經過精心調整，以平衡模型的學習速度和穩(wěn)定性。例如，適當?shù)膶W習率能夠確保模型在訓練過程中逐步收斂到最優(yōu)策略，而 KL 散度系數(shù)則防止了策略更新過程中出現(xiàn)過大的偏差，從而提高了訓練的穩(wěn)定性。

測試設置

在測試階段，研究者們選擇了 10 個未見任務（held-out tasks）來評估 ML-Agent 的泛化能力。這些任務同樣來自 MLAgentBench 和 MLE-Bench，涵蓋了圖像生成（如 denoising-dirty-documents）、圖像分類（如 leaf-classification、statoil-iceberg-classifier-challenge 等）、文本回歸（如 learning-agency-lab-automated-essay-scoring-2）和表格回歸（如 us-patent-phrase-to-phrase-matching、tabular-playground-series-dec-2021 等）等多種類型。

在實驗中使用的所有訓練和測試任務。MLA和MLE分別代表MLAgentbBench和MLE-bench

這些任務的選擇是為了全面評估 ML-Agent 在不同數(shù)據(jù)類型（圖像、文本、表格）和任務目標（分類、回歸、生成）上的性能表現(xiàn)。例如，圖像生成任務考驗智能體對圖像數(shù)據(jù)的理解和生成能力；文本回歸任務考察智能體對文本語義的把握和量化能力；表格回歸任務則測試智能體對結構化數(shù)據(jù)的處理和預測能力。

為了全面評估 LLM 智能體的性能，研究者們提出了三個評估指標：

avg@K：在 K 個評估軌跡上的平均分數(shù)，反映智能體的穩(wěn)定性。例如，如果 K=8，avg@8 表示智能體在 8 次獨立運行中的平均性能。這一指標能夠衡量智能體在多次嘗試中保持一致性能的能力，避免因偶然因素導致的性能波動。
best@K：在 K 個評估軌跡上的最高分數(shù)，顯示智能體在相同計算 / 步驟預算下所能達到的最大質量。這一指標關注智能體在有限資源內實現(xiàn)最佳性能的能力，體現(xiàn)了智能體的優(yōu)化潛力。
相對增益 ?r：相對于初始腳本的相對改進，定義為 ?r=β×(pavg@8 ? pinit)/pinit，其中 pavg@8 是 8 個軌跡的平均分數(shù)，pinit 是初始腳本的分數(shù)，β∈{?1,1} 用于根據(jù)指標類型（如 MAE、RMSE）調整符號，確保 ?r>0 表示改進。這一指標直觀地反映了智能體對初始模型的改進程度，能夠有效評估智能體的增值能力。

例如，在 denoising-dirty-documents 任務中，avg@8 指標能夠反映 ML-Agent 在 8 次不同運行中對圖像去噪模型的平均優(yōu)化效果；best@8 指標則顯示了智能體在這些運行中所能達到的最佳去噪性能；而相對增益 ?r 則量化了智能體對初始去噪模型的改進幅度，為研究人員提供了一個直觀的性能提升衡量標準。

實驗結果

實驗結果顯示，ML-Agent 在 3 個已見任務和 10 個未見任務上均表現(xiàn)出色，顯著優(yōu)于其他 5 個基于 MLAB 搭建的智能體。這些智能體包括不同參數(shù)規(guī)模的 Qwen2.5 模型（Qwen-7B-Instruct、Qwen-32B-Instruct）、專家級 GPT-4o-mini 和 GPT-4o 以及擁有 671B 參數(shù)規(guī)模的 DeepSeek-R1 等。

ML-Agent在3個訓練內任務（包含在訓練中）和10個訓練外任務（訓練期間未見過）上均優(yōu)于基線模型。對于每個任務，我們報告了8條軌跡的平均分和最高分。表現(xiàn)最佳的模型以粗體突出顯示，第二好的結果則以橫線標出

在已見任務中，例如 cifar-10 圖像分類任務，ML-Agent 的最佳準確率達到了 81.45%，超過了 Qwen-7B-Instruct 的 76.05%、Qwen-32B-Instruct 的 63.82%、GPT-4o-mini 的 80.83%、GPT-4o 的 80.34% 以及 DeepSeek-R1 的 80.34%。這表明 ML-Agent 能夠在其訓練過程中充分挖掘任務的潛力，實現(xiàn)卓越的性能。

在未見任務中，ML-Agent 同樣展現(xiàn)了強大的泛化能力。例如，在 denoising-dirty-documents 圖像生成任務中，ML-Agent 的平均 RMSE（均方根誤差）為 0.0741，優(yōu)于其他所有基線模型。這一結果證明了 ML-Agent 能夠將從有限訓練任務中學習到的知識有效地遷移到全新的任務場景中，并實現(xiàn)顯著的性能提升。

通過對比分析，研究者們發(fā)現(xiàn) ML-Agent 的優(yōu)越性能主要歸功于其獨特的訓練框架。探索增強微調為智能體提供了多樣化的策略選擇，使其能夠在訓練初期快速探索不同的解決方案；逐步 RL 范式顯著提高了訓練效率，使智能體能夠更快地從環(huán)境反饋中學習；而特定于 agentic ML 的獎勵模塊則為智能體提供了精準的學習信號，引導其朝著最優(yōu)策略不斷進化。

與AIDE框架在13項任務上的對比結果。研究者繪制了每項任務的歸一化相對增益。通過將每項任務的相對增益除以ML-Agent值來對其進行歸一化

此外，ML-Agent 與 AIDE 智能體的比較結果也進一步驗證了其訓練框架的有效性。在多個任務類型和評估指標上，ML-Agent 均表現(xiàn)出色。例如，在 jigsaw-toxic-comment-classification-challenge 文本分類任務中，ML-Agent 的 AUC（受試者工作特征曲線下面積）達到了 0.9763，超過了 AIDE 智能體的表現(xiàn)。這表明 ML-Agent 的訓練框架能夠更好地適應不同任務的特點和需求，實現(xiàn)更優(yōu)的性能。

性能提升分析

進一步的分析表明，ML-Agent 在訓練過程中，隨著 GPU 時間的增加，其性能在已見和未見任務上都呈現(xiàn)出持續(xù)提升的趨勢。

訓練任務數(shù)量對強化學習性能的影響*。純監(jiān)督學習（SFT）模型表現(xiàn)出極小的泛化能力，而強化學習（RL）則推動了泛化能力的提升

從圖表中可以看出，ML-Agent 的性能提升速度明顯快于傳統(tǒng)的基于劇集的 RL 方法。在訓練初期（GPU 時間約為 2 小時時），ML-Agent 的平均相對增益已經達到了約 5%，而基于劇集的 RL 方法可能僅能達到 2% 左右。這種性能提升的優(yōu)勢隨著訓練的進行不斷擴大，最終使 ML-Agent 在所有任務上都取得了顯著的領先地位。

這種性能提升的原因主要可以歸結為逐步 RL 范式和探索增強微調的協(xié)同作用。逐步 RL 范式通過將復雜的策略學習分解為單步行動的優(yōu)化，使智能體能夠更高效地利用每次訓練迭代。而探索增強微調則為智能體提供了豐富的初始策略多樣性，使其能夠在訓練過程中更廣泛地探索不同的解決方案空間。兩者的結合，使智能體能夠從 ML 環(huán)境反饋中不斷學習和改進，逐步逼近最優(yōu)策略。

同時，研究者們還觀察到，隨著訓練的深入，ML-Agent 的性能提升幅度在不同任務上有所差異。例如，在一些簡單的任務（如 home-data-for-ml-course 表格回歸任務）中，智能體的性能可能在較短的時間內迅速達到較高水平，而在一些復雜的任務（如 detecting-insults-in-social-commentary 文本分類任務）中，性能提升則相對緩慢，但提升空間更大。這種差異反映了不同任務的難度和智能體的學習曲線，也表明 ML-Agent 的訓練框架具有良好的適應性，能夠根據(jù)任務的特點自動調整學習策略。

關鍵組件的深入分析

探索增強微調的重要性驗證

為了驗證探索增強微調的重要性，研究者們進行了對比實驗，分別以 Qwen-7B-Base、Qwen-7B-Instruct、Qwen-7B-Distill 和 ML-Agent-SFT 作為基礎模型進行 RL 訓練，并比較了這些智能體在已見和未見任務上的平均相對增益。

探索增強的微調對于強化學習（RL）訓練至關重要。“N/A”表示基于該模型的訓練未能產生有效結果

實驗結果表明，以 ML-Agent-SFT 為基礎模型的智能體在已見任務上的平均相對增益達到了約 18%，在未見任務上達到了約 16%，而其他基礎模型的表現(xiàn)則相對較差。例如，Qwen-7B-Distill 在已見和未見任務上的平均相對增益幾乎為零，這主要是因為其在 distillation 過程中采用了默認的輸出格式，導致其生成的動作不符合自主 ML 的要求，從而在 RL 訓練的數(shù)據(jù)收集階段就無法產生有效的學習信號。

相比之下，ML-Agent-SFT 通過探索增強微調，確保了智能體輸出的動作不僅符合格式要求，還能夠生成多樣化的策略。這種多樣化策略為 RL 訓練提供了豐富的探索空間，使智能體能夠在訓練過程中發(fā)現(xiàn)更多的有效解決方案。例如，在一個文本生成任務中，ML-Agent-SFT 能夠提出多種不同的文本預處理和模型架構優(yōu)化策略，而 Qwen-7B-Instruct 則可能局限于少數(shù)幾種常見的方法。這種策略多樣性的優(yōu)勢使得 ML-Agent 在面對不同類型的任務時，都能夠更有效地進行探索和學習，從而在已見和未見任務上都取得了顯著的性能提升。

逐步 RL 訓練的有效性驗證

研究者們通過比較逐步 RL 方法和傳統(tǒng)的基于劇集的 RL 方法在訓練過程中的性能表現(xiàn)，進一步驗證了逐步 RL 訓練的有效性。

在 GPU 時間方面，逐步 RL 方法的優(yōu)勢尤為明顯。由于逐步 RL 方法避免了在線采樣過程中漫長的策略執(zhí)行階段，其訓練效率得到了顯著提升。例如，在相同的訓練時間內，逐步 RL 方法可能完成數(shù)百次的策略更新，而傳統(tǒng)的基于劇集的 RL 方法可能僅能完成數(shù)十次。這種高效的訓練過程使得逐步 RL 方法能夠更快地適應任務，實現(xiàn)性能的快速提升

在保留任務和未保留任務上，分步強化學習（Step-wise RL）都比逐幕強化學習（Episode-wise RL）更高效。兩種強化學習訓練方法都從MLAgent-SFT開始。紅色點之間的間隔是5步，而藍色三角形之間的間隔是1步

從性能提升速度來看，逐步 RL 方法在訓練初期就展現(xiàn)出了明顯的優(yōu)勢。在 GPU 時間約為 1 小時時，逐步 RL 方法的平均相對增益已經達到了約 3%，而傳統(tǒng)的基于劇集的 RL 方法可能僅能達到 1% 左右。并且，隨著訓練的進行，逐步 RL 方法的性能提升速度始終保持領先。例如，在 GPU 時間增加到 5 小時時，逐步 RL 方法的平均相對增益可能達到 10%，而傳統(tǒng)的基于劇集的 RL 方法可能僅為 5% 左右。

采樣效率的提升也是逐步 RL 方法的一大優(yōu)勢。通過從固定的狀態(tài)分布中采樣狀態(tài)，逐步 RL 方法能夠更高效地利用訓練數(shù)據(jù)。與傳統(tǒng)的基于劇集的 RL 方法相比，逐步 RL 方法能夠在相同數(shù)量的采樣中獲得更多的有效信息，從而更準確地估計策略的價值函數(shù)。例如，在一個圖像分類任務中，逐步 RL 方法可以通過對關鍵狀態(tài)的采樣，快速識別出影響模型性能的關鍵因素（如學習率、批量大小等），并針對性地進行優(yōu)化。這種高效的采樣策略使得逐步 RL 方法能夠在更短的時間內實現(xiàn)更優(yōu)的性能。

此外，逐步 RL 方法在適應 ML 任務特點方面也表現(xiàn)出色。ML 任務通常具有多樣化的狀態(tài)空間和復雜的動作空間，傳統(tǒng)的基于劇集的 RL 方法在面對這樣的任務時，往往需要大量的樣本才能學習到有效的策略。而逐步 RL 方法通過將策略學習分解為單步行動的優(yōu)化，能夠更好地適應這些復雜的特點。例如，在一個自然語言處理任務中，逐步 RL 方法可以更高效地學習到如何優(yōu)化文本預處理流程和模型架構，從而實現(xiàn)更好的性能。

特定于 agentic ML 獎勵模塊的有效性驗證

通過消融實驗，研究者們詳細分析了特定于 agentic ML 獎勵模塊中各組成部分的有效性。

實驗結果表明，每個組成部分都在 RL 訓練過程中發(fā)揮著獨特的價值。例如，當移除標準化性能獎勵（Rperf.）時，模型的性能出現(xiàn)了明顯的下降。以 cifar-10 任務為例，移除 Rperf. 后，模型的平均準確率從 68.88% 降至 60.53%，最佳準確率從 81.45% 降至 65.81%。這表明細粒度的獎勵信號對于引導智能體實現(xiàn)有意義的性能提升至關重要。通過將性能改進量化為具體的獎勵值，智能體能夠明確地了解哪些行動有助于提高任務性能，從而更有針對性地進行策略優(yōu)化。

格式獎勵（Rformat）的移除導致了最嚴重的性能退化。例如，在 feedback 任務中，模型的平均 MCRMSE（均值方根誤差）從 0.5910 上升至 0.6298，最佳 MCRMSE 從 0.5777 上升至 0.5925。這強調了確保智能體輸出格式合規(guī)性的必要性。只有生成符合要求的代碼和操作，智能體才能在環(huán)境中有效地執(zhí)行任務，并獲得有意義的反饋。格式獎勵通過懲罰不符合格式要求的行動，引導智能體學習正確的輸出模式，從而保證了整個訓練過程的有效性。

邊界情況獎勵（Rcorner）雖然在某些任務中影響較小，但在整體訓練穩(wěn)定性方面仍具有重要作用。例如，在 denoising-dirty-documents 任務中，移除 Rcorner 后，模型的平均 RMSE（均方根誤差）從 0.0741 上升至 0.0762，最佳 RMSE 從 0.0556 上升至 0.0571。盡管這種變化幅度不大，但在面對復雜的現(xiàn)實環(huán)境時，邊界情況獎勵能夠防止智能體因非致命問題（如資源耗盡、時間限制等）而受到過度懲罰，從而維持了訓練過程的穩(wěn)定性和魯棒性。

綜合來看，這三個組成部分共同構成了一個連貫且全面的獎勵結構。Rperf. 驅動智能體追求性能提升，Rformat 確保智能體的行為符合規(guī)范，而 Rcorner 則在復雜多變的現(xiàn)實環(huán)境中維持了訓練的穩(wěn)定性。在 RL 訓練過程中，它們相互補充，共同引導智能體的學習過程，使其能夠在各種 ML 任務中實現(xiàn)卓越的性能表現(xiàn)。

總結

ML-Agent 所提出的學習型智能體 ML 新范式和創(chuàng)新的訓練框架，改變了傳統(tǒng)的自主機器學習模式，使基于 LLM 的智能體從規(guī)則自動化邁向了動態(tài)、經驗驅動的學習階段。

通過探索增強微調、逐步 RL 范式和特定于 agentic ML 的獎勵模塊這三個關鍵組件的協(xié)同作用，ML-Agent 能夠在有限的訓練任務上實現(xiàn)高效學習，并展現(xiàn)出強大的跨任務泛化能力。這種能力不僅提高了自主機器學習工程的效率和性能，還減少了對人工干預的依賴。

ML-Agent 的主要貢獻在于以下幾個方面：

新范式的引入 ：它提出了學習型智能體自主機器學習（agentic ML）范式，使 LLM 智能體能夠通過在線強化學習與 ML 任務環(huán)境進行交互，主動探索策略并不斷改進決策。這一范式的提出為自主機器學習領域開辟了新的研究方向，為未來的智能體設計提供了新思路。
創(chuàng)新的訓練框架 ：ML-Agent 的訓練框架包含三個關鍵組件，這些組件在提高智能體探索能力、訓練效率和學習效果方面取得了顯著的突破。探索增強微調拓寬了智能體的策略搜索空間；逐步 RL 范式解決了傳統(tǒng) RL 方法在 ML 實驗中的采樣效率問題；特定于 agentic ML 的獎勵模塊為智能體提供了精準的學習信號。這些創(chuàng)新的訓練方法為智能體的高效學習和卓越性能奠定了堅實的基礎。
卓越的實驗性能 ：盡管僅使用了 7B 參數(shù)規(guī)模的 LLM，ML-Agent 在 13 個任務上的表現(xiàn)卻超越了包括 671B 參數(shù)規(guī)模的 DeepSeek-R1 在內的多個先進智能體，實現(xiàn)了最新的技術性能。這一結果證明了 ML-Agent 訓練框架的有效性和優(yōu)越性，展示了其在任務解決和跨任務泛化方面的強大能力。

這里需要注意的是 ML-Agent 仍然存在一些局限性。比如，ML-Agent 的訓練任務數(shù)量有限，僅有 9 個 ML 任務用于訓練。這限制了智能體對更廣泛任務場景的適應能力。可以考慮在更多的任務上進行訓練，以進一步提高智能體的泛化能力。

ML-Agent 目前的設計使其在特定的環(huán)境中表現(xiàn)最佳，而在面對全新的 ML 框架或架構時，其適應性仍面臨挑戰(zhàn)。例如，當遇到一個全新的深度學習框架或一種全新的數(shù)據(jù)類型時，智能體可能需要重新調整其策略。比如，可以包括設計更通用的環(huán)境適配機制，使智能體能夠更快地適應新的環(huán)境和任務需求。另外，遷移學習也是一個值得深入探討的方向。通過遷移學習，智能體可以利用在有限訓練任務中學習到的知識，更快地適應新的任務場景。

綜上吧，ML-Agent 的研究還是為我提供了寶貴的知識和啟發(fā)的，很期待這一領域的更多發(fā)展。

責任編輯：龐桂玉來源：覺察流

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看