Darwin G?del Machine:自我改進智能體的開放式進化
AI系統(tǒng)能否無限地自我改進?
這項工作展示了自我改進AI的潛力,靈感來源于生物進化和開放式探索。
總體概況
這項工作提出了達爾文哥德爾機器(DGM),該系統(tǒng)通過結合自指代碼修改和開放式進化搜索,推進了自我改進AI的愿景...
與原始哥德爾機器不同(它要求代碼更改具有可證明的益處,這是一個實際上難以處理的約束條件),DGM采用了經(jīng)驗方法:它修改自己的代碼庫,并在編程基準測試上評估改進效果。
自指自我改進循環(huán)
DGM從單個編程智能體開始,該智能體編輯自己基于Python的代碼庫,以提高使用凍結基礎模型(FMs)讀取、編寫和執(zhí)行代碼的能力。
每次修改都在SWE-bench和Polyglot等基準測試上進行評估,只有成功的智能體才會被保留用于進一步迭代。
無需元智能體的遞歸自舉
與其他方法(如ADAS)將元智能體與工作智能體分離不同,DGM是單體且自包含的;它使用自身來改進自身。
含義:這消除了擴展智能體系統(tǒng)的關鍵瓶頸,表明未來的智能體可能根本不需要人類設計的元學習基礎設施,從而可能加速自主創(chuàng)新。
通過進化檔案進行開放式探索
受達爾文進化論啟發(fā),該系統(tǒng)維護了所有先前智能體的檔案,并基于性能和新穎性對父代進行采樣。
這使得探索能夠超越局部最優(yōu)解,支持持續(xù)創(chuàng)新,包括重新審視之前次優(yōu)但后來成為有價值踏腳石的變體。
這反映了科學思想或自然界中的突變可能只有在許多步驟之后才有價值的情況,使得未來AI系統(tǒng)在搜索策略中融入好奇心、多樣性和記憶變得至關重要。
經(jīng)驗性能提升
經(jīng)過80次迭代,DGM將SWE-bench上的編程成功率從20.0%提升至50.0%,將Polyglot上的成功率從14.2%提升至30.7%,超越了缺乏自我改進或開放性的強基線方法。
其最佳智能體達到或超越了領先的人類設計的開源編程智能體。
涌現(xiàn)的工具和工作流程改進
通過自我改進,DGM通過進化出更精細的編輯工具、重試和評估機制、歷史感知的補丁生成以及長上下文的代碼摘要來增強其能力。
DGM讓我們glimpse了未來AI系統(tǒng)如何可能發(fā)明自己的軟件開發(fā)實踐,潛在地超越當前的人類慣例。
跨模型和任務的泛化
DGM發(fā)現(xiàn)的智能體在跨基礎模型(如Claude 3.5到3.7、o3-mini)和編程語言轉(zhuǎn)移時表現(xiàn)出良好的泛化能力,展示了不過擬合特定設置的穩(wěn)健改進。
安全意識設計
所有實驗都在沙盒環(huán)境中進行,受到監(jiān)控并限定在封閉域內(nèi)。
論文還討論了如果將這些特征作為評估標準的一部分,未來的自我改進AI系統(tǒng)如何能夠進化出更安全、更可解釋的行為。
代碼也已開源。
代碼鏈接:https://github.com/jennyzzt/dgm
論文標題:Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents
論文鏈接:https://arxiv.org/abs/2505.22954
本文轉(zhuǎn)載自??AI帝國?????,作者:無影寺
