7B智能體僅憑9個任務(wù)訓(xùn)練即超越R1！上交大打造AI-for-AI新范式

2025-06-23 08:56:00

最近，上海交通大學(xué)與上海人工智能實(shí)驗室聯(lián)合團(tuán)隊最新研究表明，一個僅依賴 7B 參數(shù)大模型的 AI 智能體（ML-Agent），采用 “經(jīng)驗學(xué)習(xí)” 新范式，只在 9 個機(jī)器學(xué)習(xí)任務(wù)上持續(xù)探索學(xué)習(xí)，迭代進(jìn)化，最終就能設(shè)計出超越 671B Deepseek-R1 驅(qū)動的智能體設(shè)計的 AI 模型，首次實(shí)現(xiàn)了在自主機(jī)器學(xué)習(xí)領(lǐng)域從 “提示工程” 到 “經(jīng)驗學(xué)習(xí)” 的范式躍遷，開創(chuàng)了 AI4AI 的新路徑。

盡管人工智能（AI）在飛速發(fā)展，當(dāng)前 AI 開發(fā)仍嚴(yán)重依賴人類專家大量的手動實(shí)驗和反復(fù)的調(diào)參迭代，過程費(fèi)時費(fèi)力。這種以人為中心的方式已成為制約創(chuàng)新速度和通向通用人工智能（AGI）的關(guān)鍵瓶頸。為突破限制，AI-for-AI（AI4AI）應(yīng)運(yùn)而生。AI4AI 旨在讓 AI 作為智能體來自主設(shè)計、優(yōu)化和改進(jìn) AI 算法，大幅減少人類干預(yù)，加速迭代開發(fā)周期，推動 AGI 發(fā)展進(jìn)程。

論文標(biāo)題：
ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering
論文地址：
https://arxiv.org/pdf/2505.23723
代碼地址：
https://github.com/MASWorks/ML-Agent

傳統(tǒng)自主機(jī)器學(xué)習(xí)：費(fèi)時低效的困境

傳統(tǒng)機(jī)器學(xué)習(xí)工程繁瑣低效，研究人員常需數(shù)天至數(shù)月進(jìn)行模型設(shè)計、參數(shù)調(diào)優(yōu)，與反復(fù)試錯，限制了 AI 創(chuàng)新發(fā)展的速度。最近，基于大語言模型（LLM）的智能體（Agent）的出現(xiàn)給該領(lǐng)域帶來顯著變革。它們能理解自然語言指令，生成代碼并與環(huán)境交互，實(shí)現(xiàn)自主機(jī)器學(xué)習(xí)（Autonomous Machine Learning，AI4AI），提升 AI 開發(fā)效率。

然而，這些智能體仍高度依賴人工設(shè)計的提示詞（Prompt Engineering），缺乏從經(jīng)驗中自主學(xué)習(xí)與泛化的能力。其能力提升仍需研究人員根據(jù)數(shù)小時的執(zhí)行結(jié)果不斷調(diào)整提示詞形成 "等待 - 修改 - 重試" 的低效循環(huán)，仍難以擺脫對人力的依賴與效率瓶頸。

AI4AI 破局之路：從指令遵循到自我進(jìn)化

為解決這一關(guān)鍵限制，該研究首次探索了基于學(xué)習(xí)的智能體自主機(jī)器學(xué)習(xí)范式，其中智能體可以通過在線強(qiáng)化學(xué)習(xí)從機(jī)器學(xué)習(xí)任務(wù)的執(zhí)行軌跡中進(jìn)行學(xué)習(xí)。這種方式使得智能體能夠主動探索不同的策略，跨任務(wù)積累知識，逐步優(yōu)化決策，持續(xù)從自身經(jīng)驗中學(xué)習(xí)，并通過訓(xùn)練不斷提升其設(shè)計優(yōu)化 AI 的能力。

自主機(jī)器學(xué)習(xí)流程

ML-Agent：首個經(jīng)驗學(xué)習(xí)的 AI4AI 智能體

利用提出的訓(xùn)練框架，研究人員訓(xùn)練了一個由 7B 規(guī)模的 Qwen2.5 大模型驅(qū)動的自主機(jī)器學(xué)習(xí)智能體。在訓(xùn)練過程中，智能體能夠高效地探索機(jī)器學(xué)習(xí)的環(huán)境，從經(jīng)驗中學(xué)習(xí)，并通過對各種機(jī)器學(xué)習(xí)任務(wù)的迭代探索實(shí)現(xiàn)持續(xù)的性能提升。令人驚喜的是，只在 9 個機(jī)器學(xué)習(xí)任務(wù)上反復(fù)學(xué)習(xí)，7B 的智能體不僅超越了 671B 規(guī)模的 DeepSeek-R1 智能體，還表現(xiàn)出了卓越的跨任務(wù)泛化能力。這項研究標(biāo)志著 AI 智能體在設(shè)計 AI 中從 "工具執(zhí)行者" 向 "自主學(xué)習(xí)者" 的轉(zhuǎn)變，帶來了 “AI 自主設(shè)計 AI” 的新范式。

自主機(jī)器學(xué)習(xí)訓(xùn)練框架

三大核心突破，解鎖 AI 自進(jìn)化

研究團(tuán)隊提出全新訓(xùn)練框架，攻克自主機(jī)器學(xué)習(xí)三大難題：

1?? 敢想敢試：探索增強(qiáng)微調(diào)

問題：傳統(tǒng)自主機(jī)器學(xué)習(xí)智能體重復(fù)相似操作，創(chuàng)新受限！
解法：探索增強(qiáng)微調(diào) (Exploration-enriched fine-tuning)，通過精心設(shè)計的多樣化的專家軌跡數(shù)據(jù)集，訓(xùn)練智能體嘗試不同策略，大幅提升探索能力。
效果：拓寬智能體的探索范圍，增強(qiáng)后續(xù)強(qiáng)化學(xué)習(xí)階段多樣化策略生成能力，不再局限局部最優(yōu)解，而是具備更廣泛的策略選擇空間！

探索增強(qiáng)微調(diào)助力強(qiáng)化學(xué)習(xí)訓(xùn)練

2?? 快速迭代：逐步強(qiáng)化學(xué)習(xí)范式

問題：完整迭代機(jī)器學(xué)習(xí)實(shí)驗需數(shù)小時，傳統(tǒng) RL 方法在機(jī)器學(xué)習(xí)實(shí)驗中采樣效率低下！
解法：逐步強(qiáng)化學(xué)習(xí)范式（Step-wise RL paradigm），重構(gòu)訓(xùn)練目標(biāo)函數(shù)，每次只優(yōu)化單步動作，數(shù)據(jù)收集效率提升數(shù)倍。
效果：RL 訓(xùn)練階段可擴(kuò)展性提高，訓(xùn)練時間顯著縮短！

逐步強(qiáng)化學(xué)習(xí)（紅線，每訓(xùn)練 5 步進(jìn)行一次評測）比基于整條軌跡的強(qiáng)化學(xué)習(xí)（藍(lán)線，每訓(xùn)練 1 步進(jìn)行一次評測）更高效

3?? 聽懂反饋：定制化獎勵模塊

問題：實(shí)驗反饋復(fù)雜（如代碼錯誤、資源溢出、性能提升），難以統(tǒng)一！
解法：機(jī)器學(xué)習(xí)定制化獎勵模塊（Agentic ML-Specific Reward Module）懲罰錯誤、鼓勵改進(jìn)，將機(jī)器學(xué)習(xí)多樣執(zhí)行結(jié)果轉(zhuǎn)換為統(tǒng)一反饋。
效果：為 RL 優(yōu)化提供一致有效的獎勵信號，推動智能體在自主機(jī)器學(xué)習(xí)訓(xùn)練中進(jìn)行持續(xù)迭代改進(jìn)！

機(jī)器學(xué)習(xí)定制化獎勵模塊每一組成部分的有效性

ML-Agent 持續(xù)進(jìn)化，展現(xiàn)泛化能力！

研究團(tuán)隊利用所提訓(xùn)練框架訓(xùn)練了一個由開源大模型 Qwen2.5-7B 驅(qū)動的自主機(jī)器學(xué)習(xí)智能體 ——ML-Agent，并開展廣泛的實(shí)驗以評估其性能。結(jié)果表明：

? ML-Agent 具有強(qiáng)大泛化能力

研究將 ML-Agent 與 5 個強(qiáng)大的開源 / 閉源 LLM 驅(qū)動的智能體進(jìn)行了比較。下表說明，ML-Agent 在見過 / 未見過的機(jī)器學(xué)習(xí)任務(wù)中的平均和最好性能都達(dá)到了最高。令人驚喜的是，只在 9 個機(jī)器學(xué)習(xí)任務(wù)上不斷學(xué)習(xí)，7B 大模型驅(qū)動的 ML-Agent 就在所有 10 個未見過的機(jī)器學(xué)習(xí)任務(wù)上超過了 671B 的 Deepseek-R1 驅(qū)動的自主機(jī)器學(xué)習(xí)智能體，展現(xiàn)出了強(qiáng)大的泛化能力。

ML-Agent 具有強(qiáng)大泛化能力

? ML-Agent 優(yōu)于最先進(jìn)方法

為了進(jìn)一步證明訓(xùn)練框架的有效性，研究人員將 ML-Agent 與一個專門為自主機(jī)器學(xué)習(xí)設(shè)計的 LLM 智能體（AIDE）作比較。結(jié)果顯示，ML-Agent 總體優(yōu)于 AIDE 智能體，凸顯了所提訓(xùn)練框架的有效性。

ML-Agent 優(yōu)于最先進(jìn)的自主機(jī)器學(xué)習(xí)智能體

? ML-Agent 持續(xù)進(jìn)化

隨著訓(xùn)練的進(jìn)行，ML-Agent 不斷自我探索，從自主機(jī)器學(xué)習(xí)的經(jīng)驗中學(xué)習(xí)，在訓(xùn)練過 / 未經(jīng)訓(xùn)練過的機(jī)器學(xué)習(xí)任務(wù)上性能持續(xù)提升，最終超越所有基線方法。

ML-Agent 的自主機(jī)器學(xué)習(xí)能力在訓(xùn)練中持續(xù)提升

ML-Agent 引領(lǐng)了 AI4AI 的新范式，將自主機(jī)器學(xué)習(xí)從依賴人類優(yōu)化的、提示工程的低效模式，轉(zhuǎn)變?yōu)橹悄荏w自主探索的、基于自我經(jīng)驗學(xué)習(xí)的設(shè)計方式。這一轉(zhuǎn)變大幅減少人類干預(yù)，加速了 AI 算法的設(shè)計迭代。隨著 ML-Agent 在更多的機(jī)器學(xué)習(xí)任務(wù)上持續(xù)自我學(xué)習(xí)與探索，其能力有望不斷提升，設(shè)計出更高效智能的 AI，為構(gòu)建強(qiáng)大的 AI4AI 系統(tǒng)奠定堅實(shí)基礎(chǔ)，為實(shí)現(xiàn)通用人工智能的長遠(yuǎn)目標(biāo)貢獻(xiàn)關(guān)鍵力量。

MASWorks 大模型多智能體開源社區(qū)

ML-Agent 也是最近剛發(fā)起的大模型多智能體開源社區(qū) MASWorks 的拼圖之一。MASWorks 社區(qū)致力于連接全球研究者，匯聚頂尖智慧，旨在打造一個開放、協(xié)作的平臺，共同分享、貢獻(xiàn)知識，推動多智能體系統(tǒng)（MAS）領(lǐng)域的蓬勃發(fā)展。

作為社區(qū)啟動的首個重磅活動，MASWorks 將在 ICML 2025 舉辦聚焦大語言模型多智能體的 Workshop：MAS-2025！期待全球廣大學(xué)者的積極參與，共同探討、碰撞思想，描繪 MAS 的未來藍(lán)圖！