成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

7B智能體僅憑9個任務(wù)訓(xùn)練即超越R1!上交大打造AI-for-AI新范式

人工智能 新聞
最近,上海交通大學(xué)與上海人工智能實(shí)驗室聯(lián)合團(tuán)隊最新研究表明,一個僅依賴 7B 參數(shù)大模型的 AI 智能體(ML-Agent),采用 “經(jīng)驗學(xué)習(xí)” 新范式,只在 9 個機(jī)器學(xué)習(xí)任務(wù)上持續(xù)探索學(xué)習(xí),迭代進(jìn)化,最終就能設(shè)計出超越 671B Deepseek-R1 驅(qū)動的智能體設(shè)計的 AI 模型,首次實(shí)現(xiàn)了在自主機(jī)器學(xué)習(xí)領(lǐng)域從 “提示工程” 到 “經(jīng)驗學(xué)習(xí)” 的范式躍遷,開創(chuàng)了 AI4AI 的新路徑。

盡管人工智能(AI)在飛速發(fā)展,當(dāng)前 AI 開發(fā)仍嚴(yán)重依賴人類專家大量的手動實(shí)驗和反復(fù)的調(diào)參迭代,過程費(fèi)時費(fèi)力。這種以人為中心的方式已成為制約創(chuàng)新速度和通向通用人工智能(AGI)的關(guān)鍵瓶頸。為突破限制,AI-for-AI(AI4AI)應(yīng)運(yùn)而生。AI4AI 旨在讓 AI 作為智能體來自主設(shè)計、優(yōu)化和改進(jìn) AI 算法,大幅減少人類干預(yù),加速迭代開發(fā)周期,推動 AGI 發(fā)展進(jìn)程。

最近,上海交通大學(xué)與上海人工智能實(shí)驗室聯(lián)合團(tuán)隊最新研究表明,一個僅依賴 7B 參數(shù)大模型的 AI 智能體(ML-Agent),采用 “經(jīng)驗學(xué)習(xí)” 新范式,只在 9 個機(jī)器學(xué)習(xí)任務(wù)上持續(xù)探索學(xué)習(xí),迭代進(jìn)化,最終就能設(shè)計出超越 671B Deepseek-R1 驅(qū)動的智能體設(shè)計的 AI 模型,首次實(shí)現(xiàn)了在自主機(jī)器學(xué)習(xí)領(lǐng)域從 “提示工程” 到 “經(jīng)驗學(xué)習(xí)” 的范式躍遷,開創(chuàng)了 AI4AI 的新路徑。

圖片

  • 論文標(biāo)題:
    ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering
  • 論文地址:
    https://arxiv.org/pdf/2505.23723
  • 代碼地址:
    https://github.com/MASWorks/ML-Agent

傳統(tǒng)自主機(jī)器學(xué)習(xí):費(fèi)時低效的困境

傳統(tǒng)機(jī)器學(xué)習(xí)工程繁瑣低效,研究人員常需數(shù)天至數(shù)月進(jìn)行模型設(shè)計、參數(shù)調(diào)優(yōu),與反復(fù)試錯,限制了 AI 創(chuàng)新發(fā)展的速度。最近,基于大語言模型(LLM)的智能體(Agent)的出現(xiàn)給該領(lǐng)域帶來顯著變革。它們能理解自然語言指令,生成代碼并與環(huán)境交互,實(shí)現(xiàn)自主機(jī)器學(xué)習(xí)(Autonomous Machine Learning,AI4AI),提升 AI 開發(fā)效率。

然而,這些智能體仍高度依賴人工設(shè)計的提示詞(Prompt Engineering),缺乏從經(jīng)驗中自主學(xué)習(xí)與泛化的能力。其能力提升仍需研究人員根據(jù)數(shù)小時的執(zhí)行結(jié)果不斷調(diào)整提示詞形成 "等待 - 修改 - 重試" 的低效循環(huán),仍難以擺脫對人力的依賴與效率瓶頸。

 AI4AI 破局之路:從指令遵循到自我進(jìn)化

為解決這一關(guān)鍵限制,該研究首次探索了基于學(xué)習(xí)的智能體自主機(jī)器學(xué)習(xí)范式,其中智能體可以通過在線強(qiáng)化學(xué)習(xí)從機(jī)器學(xué)習(xí)任務(wù)的執(zhí)行軌跡中進(jìn)行學(xué)習(xí)。這種方式使得智能體能夠主動探索不同的策略,跨任務(wù)積累知識,逐步優(yōu)化決策,持續(xù)從自身經(jīng)驗中學(xué)習(xí),并通過訓(xùn)練不斷提升其設(shè)計優(yōu)化 AI 的能力。

圖片

自主機(jī)器學(xué)習(xí)流程

 ML-Agent:首個經(jīng)驗學(xué)習(xí)的 AI4AI 智能體

利用提出的訓(xùn)練框架,研究人員訓(xùn)練了一個由 7B 規(guī)模的 Qwen2.5 大模型驅(qū)動的自主機(jī)器學(xué)習(xí)智能體。在訓(xùn)練過程中,智能體能夠高效地探索機(jī)器學(xué)習(xí)的環(huán)境,從經(jīng)驗中學(xué)習(xí),并通過對各種機(jī)器學(xué)習(xí)任務(wù)的迭代探索實(shí)現(xiàn)持續(xù)的性能提升。令人驚喜的是,只在 9 個機(jī)器學(xué)習(xí)任務(wù)上反復(fù)學(xué)習(xí),7B 的智能體不僅超越了 671B 規(guī)模的 DeepSeek-R1 智能體,還表現(xiàn)出了卓越的跨任務(wù)泛化能力。這項研究標(biāo)志著 AI 智能體在設(shè)計 AI 中從 "工具執(zhí)行者" 向 "自主學(xué)習(xí)者" 的轉(zhuǎn)變,帶來了 “AI 自主設(shè)計 AI” 的新范式。

圖片

自主機(jī)器學(xué)習(xí)訓(xùn)練框架

三大核心突破,解鎖 AI 自進(jìn)化

研究團(tuán)隊提出全新訓(xùn)練框架,攻克自主機(jī)器學(xué)習(xí)三大難題:

1?? 敢想敢試:探索增強(qiáng)微調(diào)

  • 問題:傳統(tǒng)自主機(jī)器學(xué)習(xí)智能體重復(fù)相似操作,創(chuàng)新受限!
  • 解法:探索增強(qiáng)微調(diào) (Exploration-enriched fine-tuning),通過精心設(shè)計的多樣化的專家軌跡數(shù)據(jù)集,訓(xùn)練智能體嘗試不同策略,大幅提升探索能力。
  • 效果:拓寬智能體的探索范圍,增強(qiáng)后續(xù)強(qiáng)化學(xué)習(xí)階段多樣化策略生成能力,不再局限局部最優(yōu)解,而是具備更廣泛的策略選擇空間!

圖片

探索增強(qiáng)微調(diào)助力強(qiáng)化學(xué)習(xí)訓(xùn)練

2?? 快速迭代:逐步強(qiáng)化學(xué)習(xí)范式

  • 問題:完整迭代機(jī)器學(xué)習(xí)實(shí)驗需數(shù)小時,傳統(tǒng) RL 方法在機(jī)器學(xué)習(xí)實(shí)驗中采樣效率低下!
  • 解法:逐步強(qiáng)化學(xué)習(xí)范式(Step-wise RL paradigm),重構(gòu)訓(xùn)練目標(biāo)函數(shù),每次只優(yōu)化單步動作,數(shù)據(jù)收集效率提升數(shù)倍。
  • 效果:RL 訓(xùn)練階段可擴(kuò)展性提高,訓(xùn)練時間顯著縮短!

圖片

逐步強(qiáng)化學(xué)習(xí)(紅線,每訓(xùn)練 5 步進(jìn)行一次評測)比基于整條軌跡的強(qiáng)化學(xué)習(xí)(藍(lán)線,每訓(xùn)練 1 步進(jìn)行一次評測)更高效

3?? 聽懂反饋:定制化獎勵模塊

  • 問題:實(shí)驗反饋復(fù)雜(如代碼錯誤、資源溢出、性能提升),難以統(tǒng)一!
  • 解法:機(jī)器學(xué)習(xí)定制化獎勵模塊(Agentic ML-Specific Reward Module) 懲罰錯誤、鼓勵改進(jìn),將機(jī)器學(xué)習(xí)多樣執(zhí)行結(jié)果轉(zhuǎn)換為統(tǒng)一反饋。 
  • 效果:為 RL 優(yōu)化提供一致有效的獎勵信號,推動智能體在自主機(jī)器學(xué)習(xí)訓(xùn)練中進(jìn)行持續(xù)迭代改進(jìn)!

圖片

機(jī)器學(xué)習(xí)定制化獎勵模塊每一組成部分的有效性

 ML-Agent 持續(xù)進(jìn)化,展現(xiàn)泛化能力!

研究團(tuán)隊利用所提訓(xùn)練框架訓(xùn)練了一個由開源大模型 Qwen2.5-7B 驅(qū)動的自主機(jī)器學(xué)習(xí)智能體 ——ML-Agent,并開展廣泛的實(shí)驗以評估其性能。結(jié)果表明:

? ML-Agent 具有強(qiáng)大泛化能力

研究將 ML-Agent 與 5 個強(qiáng)大的開源 / 閉源 LLM 驅(qū)動的智能體進(jìn)行了比較。下表說明,ML-Agent 在見過 / 未見過的機(jī)器學(xué)習(xí)任務(wù)中的平均和最好性能都達(dá)到了最高。令人驚喜的是,只在 9 個機(jī)器學(xué)習(xí)任務(wù)上不斷學(xué)習(xí),7B 大模型驅(qū)動的 ML-Agent 就在所有 10 個未見過的機(jī)器學(xué)習(xí)任務(wù)上超過了 671B 的 Deepseek-R1 驅(qū)動的自主機(jī)器學(xué)習(xí)智能體,展現(xiàn)出了強(qiáng)大的泛化能力。

圖片

ML-Agent 具有強(qiáng)大泛化能力

? ML-Agent 優(yōu)于最先進(jìn)方法

為了進(jìn)一步證明訓(xùn)練框架的有效性,研究人員將 ML-Agent 與一個專門為自主機(jī)器學(xué)習(xí)設(shè)計的 LLM 智能體(AIDE)作比較。結(jié)果顯示,ML-Agent 總體優(yōu)于 AIDE 智能體,凸顯了所提訓(xùn)練框架的有效性。

圖片

ML-Agent 優(yōu)于最先進(jìn)的自主機(jī)器學(xué)習(xí)智能體

? ML-Agent 持續(xù)進(jìn)化

隨著訓(xùn)練的進(jìn)行,ML-Agent 不斷自我探索,從自主機(jī)器學(xué)習(xí)的經(jīng)驗中學(xué)習(xí),在訓(xùn)練過 / 未經(jīng)訓(xùn)練過的機(jī)器學(xué)習(xí)任務(wù)上性能持續(xù)提升,最終超越所有基線方法。

圖片

ML-Agent 的自主機(jī)器學(xué)習(xí)能力在訓(xùn)練中持續(xù)提升

ML-Agent 引領(lǐng)了 AI4AI 的新范式,將自主機(jī)器學(xué)習(xí)從依賴人類優(yōu)化的、提示工程的低效模式,轉(zhuǎn)變?yōu)橹悄荏w自主探索的、基于自我經(jīng)驗學(xué)習(xí)的設(shè)計方式。這一轉(zhuǎn)變大幅減少人類干預(yù),加速了 AI 算法的設(shè)計迭代。隨著 ML-Agent 在更多的機(jī)器學(xué)習(xí)任務(wù)上持續(xù)自我學(xué)習(xí)與探索,其能力有望不斷提升,設(shè)計出更高效智能的 AI,為構(gòu)建強(qiáng)大的 AI4AI 系統(tǒng)奠定堅實(shí)基礎(chǔ),為實(shí)現(xiàn)通用人工智能的長遠(yuǎn)目標(biāo)貢獻(xiàn)關(guān)鍵力量。

MASWorks 大模型多智能體開源社區(qū)

ML-Agent 也是最近剛發(fā)起的大模型多智能體開源社區(qū) MASWorks 的拼圖之一。MASWorks 社區(qū)致力于連接全球研究者,匯聚頂尖智慧,旨在打造一個開放、協(xié)作的平臺,共同分享、貢獻(xiàn)知識,推動多智能體系統(tǒng)(MAS)領(lǐng)域的蓬勃發(fā)展。

作為社區(qū)啟動的首個重磅活動,MASWorks 將在 ICML 2025 舉辦聚焦大語言模型多智能體的 Workshop:MAS-2025!期待全球廣大學(xué)者的積極參與,共同探討、碰撞思想,描繪 MAS 的未來藍(lán)圖!

  • MASWorks 地址:https://github.com/MASWorks
  • MAS-2025 地址:https://mas-2025.github.io/MAS-2025/
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-04-19 14:28:21

聯(lián)想AI PC

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2024-04-26 11:40:23

AI硬件Rabbit

2025-02-20 15:32:28

2025-02-12 11:53:18

2025-05-26 09:21:00

2025-02-12 12:12:59

2018-04-03 13:20:40

UCloud AI T訓(xùn)練平臺

2025-02-17 09:33:00

AI算法模型

2025-02-07 15:52:20

2025-03-27 10:28:32

2023-06-09 07:29:03

模型文本document

2025-02-03 14:17:27

2023-09-23 12:52:57

模型淑娟

2023-12-18 13:37:44

天翼云天池大語言模型

2025-05-16 07:50:58

Spring AIMCPSSE

2025-05-20 07:00:00

自主式AI智能體大型語言模型

2018-06-28 22:04:25

智能體華為云人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 天天想天天干 | 亚洲一区二区三区四区五区午夜 | 中文精品一区二区 | 精品区| 丝袜美腿av | 亚洲一区二区久久 | 免费高清av | 九九国产 | 欧日韩在线观看 | 国产精品网页 | 国产精品国产三级国产aⅴ中文 | 色综合九九 | 日韩在线精品 | 久久99精品久久久久久 | 精品视频在线播放 | 超碰人人人| 国产高清一区 | 亚洲国产精品日韩av不卡在线 | 毛片一区 | 亚洲精品成人网 | 国产精品久久久久久久免费大片 | 成人久久18免费网站图片 | 久久国产精品无码网站 | 亚洲综合在线网 | 亚洲精品视频在线播放 | 一起操网站 | 国产黄色大片 | 久久精品国产一区二区三区 | 欧美激情久久久 | 一区二区三区视频在线观看 | 天天色天天| 国产农村一级国产农村 | 日韩毛片网 | 在线一区视频 | 国产精品国产精品国产专区不卡 | 国产精品观看 | 91免费在线 | 国产精品久久久 | 亚洲精品国产第一综合99久久 | 中文在线a在线 | 中文字幕日韩一区 |