用AI自動設(shè)計智能體,數(shù)學提分25.9%,遠超手工設(shè)計
基礎(chǔ)模型 (FM) 如 GPT 和 Claude ,正在成為通用智能體的強有力支持,被越來越多的用于多種推理和規(guī)劃任務(wù)。
然而,在解決問題時,需要的智能體通常是具有多個組件的復合智能體系統(tǒng),而不是單片模型查詢 。此外,為了使智能體能夠解決復雜的現(xiàn)實世界任務(wù),它們通常需要訪問外部工具,例如搜索引擎、代碼執(zhí)行和數(shù)據(jù)庫查詢。
因此,人們提出了許多有效的智能體系統(tǒng)構(gòu)建塊,例如思維鏈規(guī)劃和推理、記憶結(jié)構(gòu)、工具使用和自我反思。盡管這些智能體已經(jīng)在各種應(yīng)用中取得了顯著的成功,但開發(fā)這些構(gòu)建塊并將它們組合成復雜的智能體系統(tǒng)通常需要特定領(lǐng)域的手動調(diào)整以及研究人員和工程師的大量努力。
然而,機器學習的歷史告訴我們,手工設(shè)計的解決方案最終會被模型學習到的解決方案所取代。
本文,來自不列顛哥倫比亞大學、非營利人工智能研究機構(gòu) Vector Institute 等的研究者制定了一個新的研究領(lǐng)域,即智能體系統(tǒng)的自動化設(shè)計(ADAS,Automated Design of Agentic Systems),并提出了一種簡單但有效的 ADAS 算法,名為元智能體搜索(Meta Agent Search),以證明智能體可以通過代碼編程來發(fā)明新穎而強大的智能體設(shè)計。
該研究旨在自動創(chuàng)建強大的智能體系統(tǒng)設(shè)計,包括開發(fā)新的構(gòu)建塊并以新的方式組合它們。
實驗表明,基于 ADAS 所發(fā)現(xiàn)的智能體的性能大大優(yōu)于最先進的手工設(shè)計的基線。例如,本文設(shè)計的智能體在 DROP 的閱讀理解任務(wù)中將 F1 分數(shù)提高了 13.6/100(與基線比),在 MGSM 的數(shù)學任務(wù)中將準確率提高了 14.4%。此外,在跨域遷移后,它們在 GSM8K 和 GSM-Hard 數(shù)學任務(wù)上的準確率分別比基線提高了 25.9% 和 13.2%。
與手工設(shè)計的解決方案相比,本文算法表現(xiàn)出色,這說明 ADAS 在自動化智能體系統(tǒng)設(shè)計方面的潛力。此外,實驗表明,所發(fā)現(xiàn)的智能體不僅在跨相似領(lǐng)域遷移時表現(xiàn)良好,而且在跨不同領(lǐng)域遷移時也表現(xiàn)出色,例如從數(shù)學到閱讀理解。
- 論文地址:https://arxiv.org/pdf/2408.08435
- 項目地址:https://github.com/ShengranHu/ADAS
- 論文主頁:https://www.shengranhu.com/ADAS/
- 論文標題:Automated Design of Agentic Systems
新研究領(lǐng)域:智能體系統(tǒng)的自動化設(shè)計(ADAS)
該研究提出了一個新的研究領(lǐng)域 —— 智能體系統(tǒng)的自動化設(shè)計(Automated Design of Agentic Systems,ADAS),并描述了 ADAS 算法的三個關(guān)鍵組成部分——搜索空間、搜索算法、評估函數(shù)。ADAS 使用搜索算法跨搜索空間來發(fā)現(xiàn)智能體系統(tǒng)。
搜索空間:搜索空間定義了哪些智能體系統(tǒng)可以在 ADAS 中被表征并被發(fā)現(xiàn)。例如,像 PromptBreeder (Fernando et al., 2024) 這樣的工作僅改變智能體的文本提示,而其他組件(例如控制流)保持不變。因此,在搜索空間中,無法表征具有與預定義控制流不同控制流的智能體。
搜索算法:搜索算法定義了 ADAS 算法如何探索搜索空間。由于搜索空間通常非常大甚至無界,因此應(yīng)考慮探索與利用的權(quán)衡(Sutton & Barto,2018)。理想情況下,該算法既可以快速發(fā)現(xiàn)高性能智能體系統(tǒng),又可以避免陷入局部最優(yōu)。現(xiàn)有方法包括使用強化學習(Zhuge et al., 2024)或迭代生成新解決方案的 FM(Fernando et al., 2024)作為搜索算法。
評估函數(shù):根據(jù) ADAS 算法的應(yīng)用,可能需要考慮不同的優(yōu)化目標,例如智能體的性能、成本、延遲或安全性。評估函數(shù)定義如何評估候選智能體的這些指標。例如,為了評估智能體在未見過的數(shù)據(jù)上的表現(xiàn),一種簡單的方法是計算任務(wù)驗證數(shù)據(jù)的準確率。
該研究提出的簡單但有效的 ADAS 算法——元智能體搜索的核心概念是指示元智能體迭代地創(chuàng)建有趣的新智能體,評估它們,將它們添加到智能體存儲庫中,并使用此存儲庫幫助元智能體在后續(xù)迭代中創(chuàng)建更有趣的新智能體。與現(xiàn)有的利用人類興趣概念的開放式算法類似,該研究鼓勵元智能體探索有趣的、有價值的智能體。
元智能體搜索的核心思想是采用 FM 作為搜索算法,基于不斷增長的智能體存儲庫來迭代編程有趣的新智能體。該研究為元智能體定義了一個簡單的框架(100 行代碼以內(nèi)),為其提供了一組基本功能,例如查詢 FM 或格式化提示。
因此,元智能體只需要編寫一個「前向」函數(shù)來定義一個新的智能體系統(tǒng),類似于 FunSearch 中的做法(Romera-Paredes et al., 2024)。該函數(shù)接收任務(wù)信息并輸出智能體對任務(wù)的響應(yīng)。
如圖 1 所示,元智能體搜索的核心思想是讓元智能體在代碼中迭代地編程新的智能體。下面顯示了元智能體程序新智能體程序的主要提示,其中提示中的變量高亮顯示。
實驗
所有實驗結(jié)果表明本文發(fā)現(xiàn)的智能體大大優(yōu)于基線最先進的手工設(shè)計的智能體。值得注意的是,該研究發(fā)現(xiàn)的智能體在 DROP 閱讀理解任務(wù)上比基線提高了 13.6/100(F1 分數(shù)),在 MGSM 數(shù)學任務(wù)上比基線提高了 14.4%(準確率)。此外,研究者發(fā)現(xiàn)的智能體在從 GPT-3.5 遷移到 GPT-4 后,在 ARC 任務(wù)上的表現(xiàn)比基線提高了 14%(準確率),在從 MGSM 數(shù)學任務(wù)遷移到 GSM8K 和 GSM-Hard 中的 held-out 數(shù)學任務(wù)后,準確率分別提高了 25.9% 和 13.2%。
案例研究:ARC 挑戰(zhàn)
如圖 3a 所示,元智能體搜索可以有效且逐步地發(fā)現(xiàn)性能優(yōu)于最新手工設(shè)計的智能體。文本框中突出顯示了重要的突破。
此外,圖 3b 顯示了發(fā)現(xiàn)最好的智能體,其中采用了復雜的反饋機制來更有效地細化答案。仔細觀察搜索進度就會發(fā)現(xiàn),這種復雜的反饋機制并不是突然出現(xiàn)的。
推理和問題 - 解決域
跨多個域的結(jié)果表明,元智能體搜索可以發(fā)現(xiàn)表現(xiàn)優(yōu)于 SOTA 手工設(shè)計的智能體(表 1)。
泛化性以及可遷移性
研究者進一步展示了所發(fā)現(xiàn)智能體的可遷移性和可泛化性。
如表 2 所示,研究者觀察到搜索到的智能體(searched agent)始終優(yōu)于手工設(shè)計的智能體,并且差距很大。值得注意的是,研究者發(fā)現(xiàn) Anthropic 最強大的模型 Claude-Sonnet 在所有測試模型中表現(xiàn)最佳,使基于該模型的智能體在 ARC 上實現(xiàn)了近 50% 的準確率。
如表 3 所示,研究者觀察到元智能體搜索的性能與基線相比具有類似的優(yōu)勢。值得注意的是,與基線相比,本文的智能體在 GSM8K 和 GSM-Hard 上的準確率分別提高了 25.9% 和 13.2%。
更令人驚訝的是,研究者觀察到在數(shù)學領(lǐng)域發(fā)現(xiàn)的智能體可以遷移到到非數(shù)學領(lǐng)域(表 4)。